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SLOWO WSTEPNE 


Książka Komputerowe przetwarzanie wiedzy. Kolekcja prac 2010/2011 zawiera 
dokumentację projektów wykonanych przez studentów V roku Wydziału Elektro- 
niki Politechniki Wrocławskiej, kierunku Automatyka i robotyka, specjalności Ro- 
botyka, w semestrze zimowym roku akademickiego 2010/2011, w ramach kursu 
Komputerowe przetwarzanie wiedzy. Historia tego kursu liczy ponad 20 lat i sięga 
początków specjalności Robotyka; jego twórcą był dr inż. Ireneusz Sierocki, od 
którego opiekę nad kursem przejął w roku 2005 doc. dr inż. Witold Paluszyński. 
W latach 2005-2011 prowadzącym kurs był dr inż. Tomasz Kubik. Przy respekto- 
waniu ogólnych wymagań programowych, każdy z prowadzących ten kurs nadał 
mu indywidualne cechy swojego warsztatu naukowego, co stanowi wielką war- 
tość dydaktyczną. Kurs składa się z wykładu, projektu i seminarium. Celem pro- 
jektu było przeanalizowanie różnych teorii i algorytmów przetwarzania wiedzy i 
ich implementacja w postaci programów komputerowych służących do rozwią- 
zania konkretnych zadań. Niniejsza książka obejmuje dokumentację 17 projek- 
tów mieszczących się w następujących obszarach tematycznych: 


. Przetwarzania dokumentów 
. Percepcja i ekspresja 

. Losowość jej zastosowanie 

. Bazy danych 

. Systemy ekspertowe 

. Portale społecznościowe 

. Systemy agentowe 

. Analiza ryzyka 

. Kontrola jakości 


OC©OJOO R WDH 


Treść książki dobrze ilustrują cztery przykładowe projekty. 


e P Batog, M. Pichliński, Programowe wsparcie procesu budowy tezaurusa: Auto- 
rzy projektu opisali podstawowe zagadnienia związane z budową tezaurusów. 
Wskazali wykorzystywane standardy i modele tezaurusów oraz dokonali imple- 
mentacji własnego narzędzia wspierającego proces tworzenia tezaurusa. 

e E Melka, M. Żarkowski, Gesty dłoni: Projekt podejmuje temat związany z bu- 
dową systemu komputerowego wspierającego naukę języka migowego. Auto- 
rzy zaproponowali i zaimplementowali własne rozwiązanie (program kompu- 
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terowy korzystający z kamery internetowej), które pozwala na naukę statycz- 
nych gestów dłoni. W implementacji posłużyli się technikami przetwarzania i 
rozpoznawania obrazów. 

e K. Cisek, M. Szlosek, Gesty marszałka: Autorzy projektu pokazali wykorzystanie 
elektronicznego urządzenia zaprojektowanego jako interfejsy gier komputero- 
wych (Wii Remote). Kamera tego urządzenia posłużyła jako element systemu 
służącego do rozpoznawania gestów wykonywanych przez operatorów na pły- 
cie lotniska. W skład tego systemu wchodzi również pałeczka z punktami świa- 
tła (zaprojektowana wg autorskiego pomysłu) oraz program komputerowy, w 
którym zaimplementowano algorytmy rozpoznawania i klasyfikacji. 

e M. Dubrawski, J. Jewłoszewicz, Interfejsy programowe społecznościowych por- 
tali: Projekt nawiązuje do najnowszych trendów i technologii wykorzystywa- 
nych przy tworzeniu portali społecznościowych. Autorzy zaproponowali i za- 
implementowali własne rozwiązanie pozwalające agregować treści pochodzące 
z różnych serwisów. 


Opisy projektów posiadają spójną koncepcję i jednolitą formę, które nadają 
im charakter zamkniętej całości, od definicji podstawowych pojęć do oceny za- 
stosowanych algorytmów i uzyskanych wyników. 

Spodziewam sie, ze dzięki swojej treści i bardzo starannemu opracowaniu re- 
dakcyjnemu książka będzie przydatnym źródłem informacji dla studentów i dok- 
torantów pragnących uzyskać podstawowe rozeznanie w zagadnieniach i meto- 
dach komputerowego przetwarzania wiedzy, i stosować je w swojej pracy. 


Prof. Krzysztof Tchoń, 
opiekun specjalności Robotyka, 
Wrocław, wrzesień 2011 
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ROZDZIAŁ 


UDOSTĘPNIANIE INFORMACJI W FORMACIE 
RSS I GEORSS 


S. Basiński, P. Michałkiewicz 


Jednym z ciekawszych procesów związanym z rozwojem ludzkiej cywilizacji 
jest zdobywanie i przetwarzanie informacji. Powstanie Internetu i technologii 
sieci web wydatnie przyczyniło się do jakościowej i ilościowej jego zmiany. Rolę 
tradycyjnych gazet i czasopism oraz radiowych lub telewizyjnych programów in- 
formacyjnych coraz częściej i wyraźniej przejmują portale internetowe. Ich użyt- 
kownicy, nie wychodząc z domu, mogą za pomocą komputera i połączenia siecio- 
wego publikować samodzielnie przygotowane dokumenty, udzielać się na forach 
społecznościowych, rozsyłać pocztą elektroniczną wiadomości do znajomych itd. 
Nigdy przedtem nie można było dotrzeć tak łatwo, szybko i do tak szerokiego 
kręgu odbiorców. Niestety, łatwość publikowania pociąga za sobą również skutki 
negatywne. Coraz więcej osób decyduje się na zamieszczenie w sieci Internet 
przydatnej i niepowtarzalnej, w ich subiektywnym odczuciu, porcji informacji. 
W ten sposób powstaje szum informacyjny, z którego trudno jest odfiltrować uży- 
teczne treści. Na szczęście opracowano metody i technologie, które pozwalają 
radzić sobie z tym problemem. 

W niniejszym rozdziale zostanie opisany jeden z bardzo wygodnych i po- 
wszechnie używanych sposobów szerzenia oraz wyszukiwania informacji pole- 
gajacy na wykorzystaniu tzw. kanałów informacyjnych RSS i GeoRSS. Choć same 
kanały nie są zjawiskiem nowym, to zwykli użytkownicy Internetu często nie mają 
pojęcia o ich istnieniu i potencjalnych korzyściach wynikających z ich używania. 
Oprócz zagadnień podstawowych związanych z RSS i GeoRSS, zaprezentowany 
zostanie przykład aplikacji stworzonej przez autorów rozdziału, umożliwiający 
założenie subskrypcji dla stworzonego kanału i wizualizację jego zawartości na 
mapie. 


1.1. Czym jest RSS? 


Zanim zacznie używać się jakieś narzędzie wypadałoby zdobyć na jego temat 
podstawową wiedzę, czyli zaleźć odpowiedź na pytania: Jak to wygląda? Jak to 
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działa? Jakie to ma zastosowanie? Gdy użytkownik posiądzie ten elementarz, 
w kolejnym kroku może spróbować poszukać odpowiedzi na pytanie: Jak z tego 
skorzystać i czy jest to dla mnie przydatne?. Zacznijmy więc od rzeczy podsta- 
wowych. Z pewnością każdy użytkownik Internetu sięgający do jego zasobów za 


pomocą przeglądarki internetowej miał okazję natknąć się na ikonę: AI Jest to 
logo RSS. Ikona ta, jeśli już widnieje na stronie internetowej, prawdopodobnie 
pełni funkcję przycisku, po kliknięciu na którym użytkownik zostaje automatycz- 
nie przeniesiony do źródła RSS. Przykładowy widok zawartości takiego kanału 


pokazano na rys.[1.1] 


pl - Namoroka 


= -| 
ry Bookmark: Help IP ye 
Sam M | http://rss.feedsportal.com/c/32739/f/530427/index.rss aco ë A) 


Started ML: Headlines Zainstaluj LING Tool... 


E http:.../rss/ 49 ebookh.. C) Free co... [BLING pl-... <à Skype Maktu... 2% | 


Subscribe to this feed using | Live Bookmarks e 


O Always use Live Bookmarks to subscribe to feeds. 


Subscribe Now 


Aktualności Sport.pl 
Najważniejsze, zawsze aktualne wiadomości portalu Sport.pl 


PŚ w bieqach - Jus 
12.12.2010 13:10 


Justyna Kowalczyk (AZS AWF Katowice) z osiemnastym czasem awansowała do ćwierćfinału biegu sprinterskiego 
techniką dowolną w zawodach Pucharu Świata w swajcarskim Davos. Najszybsza w eliminacjach była liderka 
klasyfikacji generalnej Norweżka Marit Bjoergen. 

SZ E-mail thi FOZCAIPKI 


Make bigger plans with the 
Executive MBA 

Apply now for January 2011 
Click here to find out more > 


Media files 
2872345€M.jpq (11.3 KB) 


MMA, KL UFC 124: St-Pierre obronił tytuł 
12.12.2010 11:36 


Dziś nad ranem zakończyła się niesamowita i bardzo emocjonująca gala UFC 124, podczas której Georges 
"Rush" St-Pierre (21-2) po raz piąty z rzędu obronił tytuł mistrza dywizji półśredniej w walce z Joshem 
ES ko scheckiem (15-5). Przed tym pojedynkiem Josh nie szczędził gorzkich słów Kanadyjczykowi i został za to 
potwornie ukarany, przede wszystkim znakomitymi ciosami bokserskimi w stójce. Ten element walki zawodnik 
A trenowat ostatnio z jednym z najlepszych trenerów na świecie, Freddie Roachem 
P: FLACA TA 


Rys. 1.1: Widok zawartości kanału RSS w przeglądarce internetowej. 


Jedną z podstawowych funkcji RSS jest przechowywanie i szerzenie informa- 
cji w sposób prosty i łatwy do obsługi [1]. Do źródeł RSS można odwoływać się za 
pomocą zwykłych adresów URL i przeglądać ich treść za pomocą przeglądarek in- 
ternetowych. Jednak nie wszystkie przeglądarki posiadają natywną obsługę RSS. 
Niektóre wymagają instalacji dodatkowych wtyczek. Istnieją też programy zwane 
czytnikami RSS, np. CafeNews, intraVnews, RSS Reader, RssSpeed, które również 
pozwalają na dostęp do kanałów informacyjnych. Ostatnio możliwość odczytu 
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Źródeł RSS zaczęto implementować jako funkcję systemów operacyjnych. Patrząc 
na źródła RSS od strony możliwości publikowanie danych, ich obsługa również 
wymaga użycia narzędzi programowych. Informacje w kanałach RSS można pu- 
blikować za pomocą serwisów, aplikacji lub portali internetowych. 

Przed przystąpieniem do praktycznego wykorzystania źródeł RSS należy omó- 
wić jeszcze jedną, istotną ich własność: możliwość podziału na kanały tema- 
tyczne. Dlaczego własność ta jest tak istotna? Otóż dzięki niej użytkownik może 
dokonać selekcji informacji. Selekcja tematów zaś pozwala bronić się przed za- 
lewem niechcianych treści i przytłoczeniem nie tyle ich rangą czy ich istotnością, 
ale mnogością. 

Wprowadzenie mechanizmu tworzenia kanałów tematycznych stało się jedną 
z największych zalet RSS. Dzięki niemu każdy zainteresowany może dokonać sub- 
skrypcji kanału za pomocą czytnika lub przeglądarki internetowej. Po tym kroku 
będzie na bieżąco informowany o wszystkich nowych wiadomościach pojawiają- 
cych się w subskrybowanym źródle. 


1.1.1. RSS-budowa 


Przy tworzeniu plików RSS wykorzystywana jest składnia języka XML (Exten- 
sible Markup Language, [5)) w wersji 1.0. Dlatego pierwsza linijka kodu pliku RSS 
zawiera informację tej właśnie wersji. Ponadto pliki RSS rozpoznać można po 
obecności w nich znaczników <rss> oraz </rss>. W ich obrębie umieszcza się 
treść i inne znaczniki. Ogólny model zawartości dokumentu XML, będącego do- 
kumentem RSS, przedstawia się następująco: 


<?xml version="1.0" encoding="UTF-8"?> 
<link>http://www.domena.com/main.html</link> 
<rss version="2.0"> 


</rss> 


W plikach RSS można zdefiniować jeden lub więcej kanałów informacyjnych. 
Czyni się to przez zastosowanie specjalnych znaczników. Tak więc każdy element 
<rss> powinien zawierać przynajmniej jeden kanał definiowany za pomocą pary 
<channel>i /<channel>. Między tymi znacznikami zamieszczana jest cała treść 
danego kanału. Z kolei każdy element <channel> może zawierać 


e <description> - element zawierający tekstowy opis zawartości danego ka- 
nału, 

e <language> - element określający język używany w danym kanale, 

e <link> - element umożliwiający przejście do strony z kanałem, 

e <title> - element określający tytuł danego kanału. 


Dodatkowo <channel> można wzbogacić o elementy: 


e <copyright> - z informacją o prawach autorskich, 
e <docs> - z linkiem do dokumentacji kanału, 
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e <image> - z elementami potomnymi, pozwalający załączyć obrazek, 

e <item> - przedstawiający stronę lub sekcję strony www. To tu jest zamiesz- 
czana właściwa treść kanału. W jednym elemencie <channel> może być do 15 
elementów <item>. 

Poniżej przedstawiono przykładowy plik źródła RSS z jednym kanałem tematycz- 

nym. 

<?xml version="1.0"?> 

<link>http://www.domena.com/main.html</link> 

<rss version="2.0"> 

<channel> 

<title>RSS Title</title> 
<description>Przyklad kodu kanalu RSS</description> 
<link>http://www.domena.com/main.html</link> 
<language>pl</language> 
<image> 
<title>Moje wiadomosci</title> 
<url>http://www.rssmaniak.com/juri/obrl.jpg</url> 
<link>http://www.rssmaniak.com/juri</link> 
<description>Moje wiadomosci</description> 
<width>144</width> 
<height>36</height> 
</image> 
<item> 
<title>Odgarniam snieg</title> 
<description>Znowu spadl snieg</description> 
<link>http://wwww.domena2.com/main.html</link> 
<item> 

</channel> 

</rss> 


1.1.2. RSS wersje 


Historia RSS sięga roku 1999, a za jego twórcę uważa się Danego Libby z Net- 
scape. W swej niezbyt długiej historii RSS doczekało się trzech różnych kierunków 
rozwoju. Są nimi: 


e Rich Site Sumary (RSS 0.91 i 0.92) — pierwsze popularne wersje powstałe w lipcu 
1999 r. 

RDF Site Sumary (RSS 0.90 i 1.0) - wersje powstałe w marcu 1999 r. oraz grudniu 
2000 r.. zgodne ze specyfikacją RDE 

Really Simple Sindycation (RSS 2.0) - wersja wydana we wrześniu 2002 r., obec- 
nie najczęściej używana. 
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1.2. Wprowadzenie do GeoRSS 


Wraz z rozwojem technologii RSS i Atom, coraz wazniejszym stawato sie udo- 
stepnienie użytkownikom oraz developerom możliwości zamieszczania informa- 
cji razem z jej przestrzenną lokalizacją. W odpowiedzi na to zapotrzebowanie 
stworzono standard GeoRSS. Zapewnia on prosty sposób na załączanie do istnie- 
jących kanałów informacji z referencjami przestrzennymi. 

Obecnie rozpowszechnione są dwa rodzaje kodowania znaczników GeoRSS: 
Simple oraz GML. Oba formaty mogą być używane wspólnie z Atomem 1.0, RSS 
2.0, RSS 1.0, jak również z każdym innym nie RSS'owym kodowaniem XML. Cha- 
rakteryzując te dwie wersje można powiedzieć: 


e GeoRSS Simple — jest bardzo lekkim formatem, umożliwiającym developerom 
oraz użytkownikom szybko, prosto i bez większego wysiłku rozszerzyć już ist- 
niejące kanały o informacje przestrzenne. Udostępnia on podstawowe obiekty 
geometryczne, jak: point, line, polygon, circle, box (odpowiednio: punkt, 
linia, wielobok, okrąg, prostokąt) oraz obsługuje typowe sposoby kodowania 
lokalizacji w układzie odniesienia WGS-84. 

GeoRSS GML - jest formatem, w którym wykorzystuje się elementy profilu 
GML (ang. Geography Markup Language) jak: Point, LineString, Polygon, 
Envelope, CircleByCenterPoint, odpowiadające elementom z GeoRSS Sim- 
ple. Elementy te można definiwać w dowolnym układzie odniesienia. 


Zarówno w GeoRSS Simple jak i GeoRSS GML można korzystać z dodatkowych 
elementów: 


e featureType — pozwala na określenie jednowyrazowym napisem typ znacz- 
nika. Na tę funkcję nie nałożono żadnych ograniczeń w celu umożliwienia re- 
gionalizacji znacznika. Domyślnie ustawioną nazwą jest location, 
featureName — umożliwia nadanie nazwy elementowi, 

* relationshipTags — określa relacje między zawartością publikowanej treści 
a powierzchnią ziemi. Domyślenie ustawiona jest wartość is-located-at co 
oznacza, że dana treść dotyczy miejsca wskazanego na mapie. Podobnie jak 
poprzednio nie ma narzuconych żadnych ograniczeń co do treści tego znacz- 
nika, prócz przymusu użycia jednoelementowej nazwy, 

e elev- pozwala na określenie wysokości nad poziomem morza, 

e floor — określa piętro w budynku, 

e radius -określa promień lub bufor w metrach wokół geometrycznego obiektu. 


Elementy GeoRSS (zgodnie ze schematem http: //www.georss.org/xml/1. 
1/georss.xsd) pokazano na rys.[1.2] 


1.2.1. GeoRSS Simple 


Kodowanie GeoRSS Simple pozwala na maksymalizację zwięzłości zarówno 
w formatowaniu, jak i opisie danej koncepcji. Każdy obiekt GeoRSS Simle wy- 
maga tylko jednego przestrzennego znacznika. Choć takie podejście prowadzi do 
utraty zgodności z językiem GML, to jednak istnieją metody pozwalające konwer- 
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a 


, CircleByCenterPoint 


Rys. 1.2: Elementy schematu GeoRSS. 


tować format Simple na GML. Należy jednak zauważyć, że dla wielu zastosowań 
format Simple jest wystarczający i nie ma potrzeby sięgania do bardziej złożonych 
formatów. Poniżej przedstawiono sposoby zapisu geometrii w kanale GeoRSS: 


Punkt: <georss:point>45.256 -71.92</georss:point>, para liczb 
to współrzędne punktu (szerokość i długość geograficzna). 


Linia: <georss:line>45.256 -110.45 46.46 -109.48 43.84 
-109.86</georss:line>, pary liczb oznaczają współrzędne kolejnych 
punktów tworzących linię. 


Box: <georss:box>42.943 -71.032 43.039 
-69.856</georss:box>, dwie pary liczb oddzielone białym znakiem, 
wyznaczające prostokątny obszar, pierwsza para to współrzędne lewego, 
dolnego rogu prostokąta, druga para to współrzędne prawego, górnego rogu. 


Wielokat: <georss:polygon>45.256 -110.45 46.46 -109.48 
43.84 -109.86 45.256 -110.45</georss:polygon>, musi za- 
wieraé co najmniej cztery pary wspótrzednych oddzielonych biatym znakiem, 
przy czym ostatnia para musi byé taka sama jak pierwsza (wielokat to obiekt 
majacy przynajmniej trzy rózne wierzchotki). 


Okrąg: <georss:circle>42.943 -71.032 500</georss:circle>, 
zawiera trzy liczby, z których dwie pierwsze to para określająca współrzędne 
położenia środka okręgu (szerokość i długość geograficzna), zaś trzecia to 
wartość jego promienia. 


Geometrię można uzupełnić o dodatkową informację: 
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<georss:point>45.256 -110.45</georss:point> 
<georss:elev>313</georss:elev> 
<georss:point>45.256 -110.45</georss:point> 
<georss:floor>2</georss:floor> 
<georss:point>45.256 -110.45</georss:point> 
<georss:radius>500</georss:radius> 


1.2.2. GeoRSS-GML 


GML jest schematem XML do modelowania i zapisu danych geograficznych. 
GML dostarcza wiele różnorodnych konstrukcji do przedstawiania obiektów 
przestrzennych, ich topologii oraz geometrii. Dostarcza też wielu innych możli- 
wości, takich jak deklarowanie systemu współrzędnych odniesienia, czasu, jed- 
nostek miar oraz wartości ogólnych. W GeoRSS GML reprezentacja cyfrowa 
rzeczywistości jest przedstawiana za pomocą serii funkcji. Każda z tych funk- 
cji opisuje jakąś właściwość modelu świata. Przykładem może być zdefinio- 
wanie układu współrzędnych poprzez dodanie do znacznika georss atrybutu 
srsName, np. srsName=urn:ogc:def:crs:EPSG:6.6:26986. W wyrażeniu tym 
urn:ogc:def:crs oznacza definicję system odniesienia według standardu OGC, 
zaś EPSG:6.6:26986 jest identyfikatorem tego system odniesienia (w tym przy- 
padku STATEPLANE dla Massachusetts Mainland). Poniżej przedstawiono pełny 
przykład użycia tego systemu odniesienia do opisu wielokąta. 


<georss:where> 
<gml:Polygon srsName="urn:ogc:def:crs:EPSG:6.6:26986"> 
<gml:exterior> 
<gml:LinearRing> 
<gml:posList> 
45.256 -110.45 46.46 -109.48 43.84 -109.86 45.256 -110.45 
</gml:posList> 
</gml:LinearRing> 
</gml:exterior> 
</gml:Polygon> 
</georss:where> 
</entry> 


Podobnie jak w wersji Simple można definiować podstawowe geometrie, przy 
czym używa się tu znaczników zaczynają się przedrostkiem gml, skojarzonym 
z przestrzenią nazw GML, oraz zanurza się te znaczniki w elemencie where: 


Punkt: jest reprezentowany przez znacznik <gml:Point>, w którym zagniez- 
dżony jest element <gml : pos> zawierający parę współrzędnych oddzielonych 
znakiem spacji. Przykładowy zapis punktu w GeoRSS przedstawiono poniżej. 


<georss:where> 
<gml:Point> 
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<gml:pos>45.256 -71.92</gml:pos> 
</gml:Point> 
</georss:where> 


Linia: jest definiowana z wykorzystaniem znacznika <gml : LineString>. Znacz- 
nik ten oznacza początek definicji linii, natomiast <gml:posList> zawiera 
przynajmniej dwie pary współrzędnych, przy czym pary nie mogą być odda- 
lone o więcej niż 179 stopni zarówno w szerokości jak i długości geograficznej. 

<georss:where> 
<gml:LineString> 
<gml:posList> 
45.256 -110.45 46.46 -109.48 43.84 -109.86 
</gml:posList> 
</gml:LineString> 
</georss:where> 


Box: określa prostokątny element. Często jest używany do zaznaczania wiek- 
szych obszarów mapy. Definicja zawiera element <gml :Envelope> oraz jego 
potomków <gml:lowerCorner> i <gml:upperCorner>. Wartością pierw- 
szego jest para współrzędnych lewego dolnego rogu, natomiast drugi określa 
współrzędne prawego górnego rogu. 


<georss:where> 
<gml :Envelope> 
<gml : lowerCorner>42.943 -71.032</gml:lowerCorner> 
<gml :upperCorner>43.039 -69.856</gml:upperCorner> 
</gml:Envelope> 
</georss:where> 


Wielokąt: jest opisywany przy pomocy elementu <gml : Polygon> wraz z jego po- 
tomkami <gml:exterior>, <gml:LinearRing> oraz <gml:posList>. Lista 
współrzędnych musi zawierać co najmniej cztery elementy, z których pierw- 
szy i ostatni muszą być takie same. Dodatkowo, żadna z dwóch par nie może 
różnić się między sobą o więcej niż 179 stopni zarówno w szerokości, jaki dłu- 
gości geograficznej. 
<georss:where> 

<gml:Polygon> 
<gml:exterior> 
<gml:LinearRing> 
<gml:posList> 
45.256 -110.45 46.46 -109.48 43.84 -109.86 45.256 -110.45 
</gml:posList> 
</gml:LinearRing> 
</gml:exterior> 
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</gml:Polygon> 
</georss:where> 


1.3. OpenLayers 


Do wizualizacji danych geograficznych można wykorzystać bibliotekę 
OpenLayers [2]. Pozwala ona publikować mapy na stronach internetowych przy 
wykorzystaniu języka javaScript. Publikowana mapa powstaje na poprzez na- 
kładanie kolejnych warstw związanych z danymi przestrzennymi lub usługami 
geoprzestrzennymi. W rozwiązaniach budowanych na bibliotece OpenLayers 
często wykorzystuje się usługi WMS (ang. Web Map Server). Takie podejście, 
poza ułatwieniem aktualizacji mapy, pozwala na agregację danych pochodzą- 
cych z rozproszonych źródeł oraz pozwala na implementację cienkiego klienta. 
W ogólnym zarysie działanie aplikacji z komponentami biblioteki OpenLayers 
polega na wysyłaniu żądań do usługi przestrzennej z parametrami określającymi 
obszar zainteresowania na mapie, oraz zobrazowaniu odpowiedzi będącej wy- 
branym wycinkiem mapy. Dzięki takiej komunikacji OpenLayers pozwala do- 
łączyć do mapy dodatkowe elementy w sposób dynamiczny (oraz je usunąć). 
OpenLayers ponadto umożliwia umieszczanie na mapie różnych znaczników, 
w tym znaczników definiowanych w GML, KML, GeoRSS. Obsługa znaczników 
GeoRSS przez bibliotekę OpenLayers jest jak na razie ograniczona tylko do ele- 
mentu point. Podsumowując, OpenLayers umożliwia: 


e wybór tekstury mapy, 

+ obsługę formatów GeoRSS, KML, GML, GeoJSON, 

e wykonywanie operacji na mapie, np. przybliżania, przesuwania. 

Poniżej przedstawiono przykładowy kod, który pozwala wyświetlić na stronie in- 
ternetowej mapę złożoną z dwóch warstw: warstwy związanej z usługą WMS oraz 
warstwy związanej ze źródłem GeoRSS. 


// tworzy element mapa 
map = new OpenLayers.Map('map', {maxResolution:’auto’}); 

// tworzy, dodaje i centruje warstwę mapy (standardowa mapa) 
layer = new OpenLayers.Layer.WMS("OpenLayers WMS", 

"http://vmap0.tiles.osgeo.org/wms/vmap0", (layers: 'basic')); 

map.addLayer (layer); 

/ map.setCenter (new OpenLayers.LonLat(0, 0), 0); 

// dodaje konrolki do włączania/wyłączania warstw 
map.addControl (new OpenLayers.Control.LayerSwitcher()); 

// tworzy i dodaje warstwę georss z pliku 'georss.xml' 
var newl = new OpenLayers.Layer.GeoRSS(’GeoRSS’, 'georss.xml'); 
map.addLayer (newl); 
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1.4. ExtJS 


Biblioteka ExtJS, podobnie jak OpenLayers, jest biblioteką javaScript. Po- 
zwala na budowę okien dialogowych i kontrolek w aplikacjach webowych . Bi- 
blioteka obsługuje, m.in.: 


e pole tekstowe oraz pole wprowadzania tekstu, 

e pole daty, 

e rozwijane menu, 

radio i checkbox, 

e grid, 

e suwaki, 

e regionalizacja paneli, 

e klasy do zarządzania formatami JSON oraz XML. 


Item 1 — Here you can put some text 
text 1 

Item 2 + 

Item 3 + 


Rys. 1.3: Wynik wykonania przykładowego skryptu ExtJS. 


Na rys.[1.3|pokazano wynik wykonania ponizszego skryptu ExtJS: 


<script type="text/javascript"> 
Ext.onReady(function() { 
// tworzy item 1 
var iteml = new Ext.Panel ({ 
title: 'Item 1’, html: 'text 1’, cls:’empty’ 
j); 
// tworzy item 2 
var item2 = new Ext.Panel({ 
title: ‘Item 2', html: 'text 2', cls:'empty' 
j); 
// tworzy item 3 
var item3 = new Ext.Panel({ 
title: ‘Item 3’, html: 'text 3’, cls:’empty’ 
M; 
// grupuje itemy od 1 do 3 na jednym panelu 
var accPanel = new Ext.Panel ({ 
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region:'west', margins:'5 0 5 5’, split:true, 
width: 210, layout:'accordion', 
items: [iteml, item2, item3] 

Di; 


// wyświetla zgrupowane panele z dodatkowym oknem w centrum 


var viewport = new Ext.Viewport ({ 
layout:’border’, 
items: [ 
accPanel, { 
region:’center’, 
margins:’5 5 5 0’, 
cls:’empty’, 
bodyStyle:’ background: #f1f1f1’, 
html:'Here you can put some text’ 


Di; 
</script> 


1.5. GeoExt 


Biblioteka GeoExt jest rozszerzeniem biblioteki ExtJS o elementy wspierajace 
obstuge map [3]. Pozwala ona budowaé aplikacje internetowe z elementami wy- 
korzystujacymi miedzy innymi biblioteke OpenLayers. Jednym z dodanych ele- 
mentów jest panel gx_mappanel. Pozwala on obstugiwaé zarówno mapy Open- 
Layers jak i również GoogleMaps. Przykład demonstrujący wyświetlenie panelu 
mapy przy pomocy biblioteki GeoExt pokazano na rys.[1.4] Jest to efekt wywoła- 
nia poniższego skryptu: 

//rozpoczęcie konstrukcji panelu 

Ext.onReady (function() { 
Ext.state.Manager.setProvider (new Ext.state.CookieProvider()); 
//tworzenie mapy przy pomocy biblioteki OpenLayers 


var map = new OpenLayers.Map(); 

var layer = new OpenLayers.Layer. WMS ( 
"Global Imagery", 
"http://maps.opengeo.org/geowebcache/service/wms", 
layers: "bluemarble"} 


); 
// dodanie warstwy z mapą 
map.addLayer (layer); 
// stworzenie panelu na mapę 
mapPanel = new GeoExt.MapPanel ({ 
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title: "GeoExt MapPanel", 


renderTo: "mappanel", 
stateld: "mappanel", 
height: 400, 
width: 600, 
// umieszczenie w nim stworzonej przez nas mapy 
map: map, 
center: new OpenLayers.LonLat (5, 45), 
zoom: 4, }); 


Rys. 1.4: Wywołanie przedstawionego przykładowego kodu GeoExt. 


1.6. Przykładowe zastosowanie GeoRSS 


W celu przetestowania i oceny możliwości wykorzystania znaczników GeoRSS 
i RSS wykonano przykładowy projekt. Założeniem projektowym było stworzenie 
strony internetowej ułatwiającej poruszanie się nowych studentów Politechniki 
Wrocławskiej po jej kampusie. Strona ta miała umożliwiać: 


e wczytanie pliku opisanego znacznikami GeoRSS będącego planem zajęć stu- 
denta, 

e stworzenie okna umożliwiającego wyświetlanie ważnych miejsc z kampusu Po- 
litechniki Wrocławskiej z ich nazwami i najważniejszymi informacjami. Zało- 
żono dodatkowo, że samo okno powinno pozwalać na: 
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— sortowanie rekordów, 
— wyłączanie jednej z dwóch kolumn, 
— zmiana kolejności wyświetlania kolumn. 


e wyświetlenie ważnych miejsc Politechniki Wrocławskiej na mapie. Zgodnie 
z założeniami projektowane rozwiązanie miało umożliwiać zmianę rozmiaru 
okien aplikacji internetowej oraz możliwość przybliżania/oddalania, a także 
przesuwania mapy. 


Jedną z zalet biblioteki OpenLayers jest łatwe operowanie warstwami. Powstała 
więc aplikacja umożliwiająca wybór jednej z dwóch warstw. Pierwszą z nich 
była vmap0, a drugą osm. Na przykładzie tej drugiej pokazano możliwość zmiany 
układu wpółrzędnych odniesień geograficznych dla prezentowanej warstwy. 

Podczas prac projektowych napotkano na problemy implementacyjne pod- 
czas wykorzystywania biblioteki OpenLayers wraz z biblioteką GeoExt. Ich po- 
wodem była niedostateczna komunikacja między tymi bibliotekami. Zaobserwo- 
wane problemy to, np.: 


e przy zmianie współrzędnych niektóre elementy związane biblioteką przestają 
wyświetlać poprawnie znaczniki (okno storage z biblioteki GeoExt nie współ- 
pracuje w pełni ze zmianą współrzędnych), 

e sprzężenie okna storage z mapa nastręczało kłopotów (zablokowanie wyska- 
kujących okienek z opisem znacznika). 


Ostatecznie powstała aplikacja pozwalająca na: 


e wczytywanie poprzez okno formularza pliku opisanego przy pomocą znaczni- 
ków GeoRSS/RSS, 

e prezentację na mapie znaczników GeoRSS, 

wyświetlanie na mapie oraz w panelu pliku z danymi o budynkach Politechniki 

Wrocławskiej, 

wybór warstwy mapy między standardową a OSM, 

wyłączanie wyświetlania na mapie wczytanych plików, 

przybliżanie/oddalanie i przesuwanie widocznej części mapy, 

przybliżanie wielkości skali przy pomocy linijki, 

odczytywanie położenia kursora na mapie (klasyczny system opisu współrzęd- 

nych), 

szybkie przesuwania widocznej części mapy przy pomocy podglądu z miniatu- 

rową mapą. 


Powyższe funkcje związane są z obsługą mapy. Jednakże aplikacja dodatkowo 
pozwalała na: 


e wczytywanie plików z adresów spoza serwera aplikacji, 

e parsowanie pliku z danymi po tytule i opisie, 

zmianę rozmiaru okien dialogowych, 

zmianę kolejności kolumn w oknie informacyjnym oraz możliwość sortowania 
informacji, 
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e wielokrotne uruchomienie poprzez mechanizm kart w przeglądarce interneto- 
wej. 

1.7. Szczegóły implementacyjne 


Aby zrealizować wymagania funkcjonalne w implementacji wykorzystano 
funkcje opisane poniżej. 


1.7.1. Element Mapa 


Do zmiany układu współrzędnych geograficznych w jakich wyświetlana jest 
mapa posłużono się funkcją Projection: 


var wgs = new OpenLayers.Projection("EPSG:4326"); 


Aby stworzyć okno z mapą wystarczy użyć funkcji Map jak w następującym przy- 
kładzie: 


map = new OpenLayers.Map("map_box", { 
//ustawia kontrolki mapy na domyślne 
controls: [|], 
//używa zdefiniowanego układu współrzędnych 
displayProjection: wgs 
Di; 
Do stworzenia i dołączenia warstw do mapy wykorzystano następujący kod: 


// tworzy warstwe pobierana z serwisu Open Street Map 
var osm = new OpenLayers.Layer.OSM("OpenStreetMap"); 


// tworzy warstwe mapy VMAPO0 z danego serwisu WMS 
layer = new OpenLayers.Layer.WMS( "OpenLayers WMS", 
"http://labs.metacarta.com/wms/vmap0", 

(layers: ‘basic’} ); 

// dodajemy warstwy do OKNA mapy w zadanej kolejnosci 
map.addLayers([osm, layer]); 


1.7.2. Kontrolki mapy 


Biblioteka OpenLayers umożliwia zarządzanie kontrolkami na mapie. Oto 
niektóre z możliwych ustawień: 


e dodatkowy pasek do przybliżania i oddalania mapy 
map.addControl (new OpenLayers.Control.PanZoomBar ()); 

e przełącznik między warstwami (na prawo u góry) 
map.addControl ( 


new OpenLayers.Control.LayerSwitcher({’ascending’:false})); 
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linijka ze skalą w lewym dolnym rogu 


jej 


nap.addControl (new OpenLayers.Control.ScaleLine()); 


e wyświetlanie pozycji kursora 


map.addControl (new OpenLayers.Control.MousePosition()); 
¢ kontrolka umozliwiająca podgląd mapki w szerszym kontekście 
map.addControl (new OpenLayers.Control.OverviewMap ()); 


¢ kontrolka umożliwiająca skalowanie mapy myszą 


map.addControl (new OpenLayers.Control.Navigation()); 
1.7.3. Warstwa znaczników 


Aby dodać znaczniki np. GeoRSS do mapy należy użyć komendy 


var newl = new OpenLayers.Layer.GeoRSS( 'GeoRSS','georss.xml' ); 


powoduje ona wczytanie pliku georss.xml do mapy i wyświetlenie znaczników 
GeoRSS na mapie. OpenLayers umożliwia również wczytywanie innego typu 
znaczników. Oto przykłady wywołania znaczników innego typu: 


e Dodawanie znaczników GeJSON do mapy "map". 


var geojson_format = new OpenLayers.Format.GeoJSON (); 

var vector_layer = new OpenLayers.Layer.Vector(); 

map.addLayer (vector_layer) ; 

vector_layer.addFeatures (geojson_format.read(featurecollection) ); 
// gdzie 'featurecollection' jest wcześniej zdefiniowaną 

// zmienną przechowującą znaczniki GeoJSON 


e W tym przykladzie dodano znacznik opisujący wielokąt przy pomocy składni 
GML. W pliku polygon.xml znajduje sie opis tego wielokąta. 


map.addLayer (new OpenLayers.Layer.GML("GML", "polygon.xml")); 


e Dodawanie znaczników z pliku opisu KML. 


map.addLayer (new OpenLayers.Layer.GML("KML", "lines.kml", 


1.7.4. Kontener 


Do przechowywania danych GeoExt posiada specjalny obiekt FeatureStore. 


myStore = new GeoExt.data.FeatureStore ({ 
// zmienna przechowujaca wczytywane dane wektorowe 
layer: newl, 
fields: [ 
// nazwy i typy parsowane z pliku 
(name: ‘title’, type: ‘string’}, 
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(name: ‘description’, type: 'string') 
l; 
proxy: new GeoExt.data.ProtocolProxy ({ 

protocol: new OpenLayers.Protocol.HTTP (( 

//adres i format pliku parsowanego 

url: myUrl, 

format: new OpenLayers.Format.GeoRSS () 


}) 


r, 
//automatyczna zaladowanie i zapamiętanie danych 
autoLoad: true, autoSave: true, 


D; 


Pozwala on na wczytywanie danych z pliku (z jego parsowaniem) oraz umożli- 
wia ich związanie z mapą w postaci warstwy wektorowej. Poniżej przedstawiono 
przykład stworzenia warstwy wektorowej. 


var vector_layer = new OpenLayers.Layer.Vector (); 


1.7.5. Panel 


Ponizej przedstawiono przyktad utworzenia panelu przy uzyciu biblioteki 
ExtJS. Opis poszczególnych opcji umieszczono w komentarzach. 


myPanel = new Ext.Panel(f 

//zdefiniowanie typu układu 

layout: 'border', 

// item definiuje obiekty użyte do konstrukcji 

items: [ 

//każdy nowy obiekt jest zamknięty w nawiasie klamrowym 
//xtype definiuje typ obiektu ’gx_mappanel’ z GeoExt 
xtype:’gx_mappanel’, 

// map odwołuje sie do wczytanej mapy z OpenLayers 


map: map, 
// wyśrodkowanie 

region: ‘center’, 

// wycentrowanie mapy 

center: new OpenLayers.LonLat (0,0), 

// dwukrotne powiekszenie mapy 

zoom: 2, 

// zezwolenie na przesuwanie granic panelu 
split: true 

}, 

(// panel typu Grid we wschodniej części okna 
xtype: 'grid',region: ‘east’, 
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// szerokość okna 
width: 400, 
// przypisuje zmienną z danymi 
store: myStore, 
// definiuje nazwy pól pobranych ze zmiennej store 
columns: [ 
fheader: 'Title', dataIndex: 'title'), 
(header: 'Description', dataIndex: ‘description’,width: 296}], 
// zezwolenie na przesuwanie granic panelu 
split: true, 
hl, 
// wysokosé catego okna i unikalna nazwa catego panelu 
height :570,renderTo:'panelDiv' 
DP; 
bi 


1.7.6. Uwagi na temat wdrożenia 


Aplikacja powinna operować na danych otagowanch znacznikami RSS i Geo- 
RSS, zawartych w stronach internetowych. Stąd stosownym było jej zaimplemen- 
towanie jako aplikacji WEB'owej. Finalna wersja programu powinna zostać osa- 
dzona na serwerze WWW podłączonym do internetu. Ponieważ w stworzonym 
rozwiązaniu wykorzystywany są zewnętrzne usługi serwujące mapy, koniecznym 
stało się przygotowanie dla aplikacji odpowiedniej konfiguracja ustawień proxy. 
Do tego celu można użyć odpowiednich modułów Apache2 oraz plików konfigu- 


racyjnych proxy.cgi. 


1.8. Podsumowanie 


Kanały RSS i GeoRSS są obecniej jednym z lepszych źródeł krótkich i zwięzłych 
informacji. Ponadto GeoRSS, jako aplikacja XML, jest stosowany do opisu danych 
geograficznych przy pomocy prostych znaczników. Dzięki takiemu podejściu 
możliwym jest dekodowanie informacji o danych geograficznych przez systemy 
informatyczne. Umożliwienie gromadzenia, obróbki, wizualizacji oraz przetwa- 
rzania tego typu danych komputerom prowadzi do budowania systemów auto- 
nomicznych wykorzystujących wiedze o położeniu. Taką wiedzę można udostęp- 
nić autonomicznym pojazdom do celów nawigacji, jak również budować systemy 
gromadzące dane i przypisujące im informacje o współrzędnych geograficznych. 
Ten drugi sposób został użyty przez firmę Google do prezentacji danych o powo- 
dzi z wiosny 2010 roku. 

Dzięki możliwości przerzucenia części analizy danych geograficznych wraz 
z ich opisem można przyspieszyć ekstrakcje danych z wielkich baz wiedzy. Ta- 
kie systemy mogą nie tylko zmniejszyć koszty obróbki danych, ale również ocalić 
życie ludzkie. Przykładem mogą być systemy gromadzące i przetwarzające dane 
o aktywności sejsmicznej ziemi. Liczba danych i prędkość ich napływania sku- 
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tecznie uniemożliwiają na bieżąco wyciąganie z nich informacji przez człowieka. 
Natomiast systemy wyposażone w metody łatwego i zwięzłego opisu danych wraz 
z ich opisem mogą znacznie szybciej wyciągnąć wnioski i wystosować odpowied- 
nie komunikaty do użytkownika systemu. 
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ROZDZIAŁ 


WYSZUKIWANIE PRZESTRZENNO-CZASOWE 


A. Bernad, Ł. Juszkiewicz 


W rozdziale tym zostanie przedstawione zagadnienie wyszukiwania 
przestrzenno-czasowego w świetle możliwości rozszerzenia funkcji wyszukiwa- 
nia w systemie zarządzania dokumentami DMS (ang. Document Management 
System). Przedstawione zostaną ogólne zasady wyszukiwania dokumentów oraz 
rola ontologii czasowo-przestrzennej. Wyjaśniona zostanie znaczenie systemów 
DMS w codziennym życiu. 


2.1. Wyszukiwanie dokumentów 


Ze względu na rosnącą w bardzo szybkim tempie ilość informacji przechowy- 
wanej w systemach komputerowych przez pojedyncze osoby czy instytucje, efek- 
tywne zarządzanie tą informacją oraz możliwość jej analizy w konteście czasowo- 
przestrzennym jest niezwykle gorącym temat. O ile samo gromadzenie i prze- 
chowywanie danych jest stosunkowo proste do zaimplementowania, o tyle sku- 
teczne i szybkie wyszukiwanie danych jest zagadnieniem dużo bardziej skompli- 
kowanym. Obserwując publikacje na ten temat można zauważyć, że w ostatnich 
latach wykonano wiele badań nad skutecznością istniejących rozwiązań i oraz 
metodami jej zwiększenia. 

W większości przypadków przy wyszukiwaniu potrzebnych informacji stosuje 
się wyszukiwanie pełnotekstowe. Jest to dobre rozwiązanie, jeśli jakaś fraza jest 
wyszukiwana w jednym czy kilku tylko dokumentach. Jednak w przypadku du- 
żych zbiorów danych jest to bardzo złożona, a czasami zawodna operacja. Wy- 
niki wyszukiwania mogą być dalekie od oczekiwań, jeśli zapytanie zostanie źle 
skonstruowane. Chodzi tu o to, że wynik wyszukiwania w większości przypad- 
ków zostanie znaleziony na zasadzie prostego dopasowania słów kluczowych 
w analizowanych tekstach. Przez to wśród rezultatów brak będzie tych doku- 
mentów, które opisują interesujący użytkownika temat, ale za pomocą słów bli- 
skoznacznych. Przykładowo, wynik wyszukiwania dokumentów zawierających 
słowo „dom” nie będzie zawierał dokumentów, które zawierają słowo „mieszka- 
nie”. Zapewne w wielu przypadkach wystarczyłoby zmodyfikować parametry wy- 
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szukiwania, zamieszczając w zapytaniach całą listę bliskoznacznych słów. Jednak 
konstrukcja takich zapytań może być trudna i nieefektywna. 

Podczas przeszukiwania zasobów można również postawić sobie za zadanie 
wyszukanie tych dokumentów, które zostały stworzone tylko w określonym prze- 
dziale czasu czy też dotyczą określonej lokalizacji w przestrzeni. Jeśli dokumenty 
będą miały w swojej treści informacje o lokalizacji, można spodziewać się po- 
prawnych wyników wyszukiwania, przynajmniej w części związanej z przestrze- 
nią. Ale jak w takim razie wybrać dokumenty z ostatnich 5 zamiast 15 lat? Wypi- 
sywanie wszystkich dat dzień po dniu jest dość męczące dla dłuższych interwa- 
łów. Dodatkowo należy pamiętać o niejednoznacznym formacie daty. Wydaje się 
więc, że postawione zadanie nie należy do łatwych. Aby go rozwiązać, zamiast 
wyszukiwania pełnotekstowego stosuje się wyszukiwanie czasowo-przestrzenne 
na bazie specjalnie w tym celu utworzonych indeksów. 


2.2. Wyszukiwanie w oparciu o metadane 


Sposobem na umożliwienie wyszukiwania danych przy pomocy bardziej za- 
awansowanych kryteriów jest wprowadzenie metadanych, czyli inaczej „danych 
o danych”. Przykładem może tu być katalog biblioteczny zawierający podstawowe 
informacje o książkach, umożliwiający ich wyszukiwanie. Tagi opisujące krótko 
treści stron internetowych to również proste metadane. 

Możliwości jakie oferowane są przez wyszukiwarkę w dużym stopniu zależą 
właśnie od metadanych, zawartych w nich informacji oraz ich struktury. Pojawia 
się tutaj problem w jaki sposób je zapisywać, aby były one czytelne dla progra- 
mów komputerowych i w łatwy sposób poddawały się szybkiej maszynowej ob- 
róbce. Jedną z prób usystematyzowania zapisu mtetadanych jest język RDF (ang. 
Resource Description Framework [1)). Został on opracowany przez WC3, a jego 
składnia bazuje na XML. w języku RDF każdy zasób opisywany jest za pomocą wy- 
rażenia składającego się z trzech elementów: podmiotu, orzeczenia/predykatu 
(własności) i dopełnienia/obiektu (wartości), tak jak to pokazno na rys.|2.1] 


język 


http://pl.wikipedia.org/wiki/Filtr_rodzinny 


Jan Kowalski 


URI 


WŁAŚCIWOŚĆ właściciel 
m Wikipedia 
WARTOŚĆ 


Ns ochrona dzieci przed pornografią 


Rys. 2.1: Przykład grafu RDF zawierającego opis właściwości filtru rodzinnego. 


Rozszerzeniem języka RDF jest OWL (ang. Web Ontology Language, [2]). OWL 
jest używany do tworzenia ontologii, czyli formalnej reprezentacji wiedzy, na 
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którą składają się zbiory pojęć i relacji pomiędzy nimi. Opis bazujący na otolo- 
gii stanowi jeden ze sposobów tworzenia metadanych. Jego zaletą jest struktura 
logiczna, pozwalająca na wnioskowanie, co czyni wyszukiwanie danych „inteli- 
gentniejszym”. 

Jak już wspomniano często zachodzi potrzeba wyszukania danych, na przy- 
kład dokumentów, wg kryterium czasowego, przestrzennego lub obu jednocze- 
śnie. Znalezienie dokumentu opisującego upadek meteorytu w okolicach Ole- 
śnicy w nocy z 21 na 22 października przy pomocy wyszukiwania pełnoteksto- 
wego może być trudne, jeśli w treści dokumentu nie są wprost zawarte informacje 
o dacie i miejscu. Należy więc skorzystać z systemu, których potrafi indeksować 
dane w kategoriach czasu i przestrzeni, a następnie dokonywać wyszukiwania 
przy ich pomocy. Takim systemem jest na przykład portal Filckr, który umożliwia 
dodawanie zdjęć, a następnie ich opisywanie przy pomocy informacji geograficz- 
nych. Pozwala to na łatwe znalezienie zdjęć związanych ze wskazanym miejscem 
na mapie. 

Pożądane jest również wykorzystanie pewnych logicznych własności informa- 
cji czasowo-przestrzennej — wyszukiwanie w określonych przedziałach czasu, 
regionach kraju, świata. Jeśli poszukiwane są dokumenty dotyczące Polski, w wy- 
nikach wyszukiwania powinny znaleźć się również dokumenty oznaczone jako 
dotyczące konkretnych miejsc czy regionów w Polsce: miasta Wrocławia, powiatu 
lubuskiego itd. 

Rozwijanie systemów posiadających wyżej opisaną funkcjonalność jest ostat- 
nio bardzo intensywne. Ilość informacji znajdujących się w sieci Internet oraz 
najróżniejszych bazach danych jest ogromna. Większe możliwości szybkiego 
wyszukiwania potrzebnych informacji oznaczają zwykle konkretny zysk ekono- 
miczny. Jednym z rodzajów systemów, w których można zastosować wyszukiwa- 
nie przestrzenno-czasowe, są systemy zarządzania dokumentami. 


2.3. Systemy DMS 


W obecnych czasach, gdy papierowe dokumenty zostają zamieniane na ich 
cyfrowe odpowiedniki, tradycyjne archiwum z regałami teczek zastąpił komputer 
z odpowiednim oprogramowaniem. Systemy DMS to przykład takiego oprogra- 
mowania, przeznaczonego do efektywnego zarządzanie dokumentami. 


2.3.1. Czym są systemy DMS 


Systemy DMS, czyli systemy zarządzania dokumentami w postaci cyfrowej, 
pozwalają na wydajne administrowanie nawet dużymi zbiorami danych. Zalet 
wdrożenia takiego systemu jest co najmniej kilka. Bardzo szczegółowe, a jedno- 
cześnie wydajne kategoryzowanie informacji powoduje, że odszukanie określo- 
nych danych zamiast standardowych minut, godzin i dni zajmuje najwyżej kil- 
kanaście sekund. Po przeniesieniu archiwum firmy z metalowej szafy na dysk 
komputera skończą się telefony i e-maile do poszczególnych pracowników z py- 
taniami o miejsce odłożenia jakiejś teczki. Odpowiednie skonfigurowanie reguł 
dostępu i przydzielanie zadań zwiększy nie tylko poziom bezpieczeństwa danych, 
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ale także podniesie wydajność pracy. Nie bez znaczenia będzie również możli- 
wość uzyskania dostępu do dokumentów z dowolnego miejsca i o każdej porze. 


2.3.2. Ograniczenia systemów DMS 


W dzisiejszym stanie prawnym całkowite zrezygnowanie z papierowych doku- 
mentów na rzecz ich elektronicznych wersji nie jest możliwa. Informatyzacja po- 
stępuje jednak wytrwale, a już dziś elektroniczna wersja papierowego archiwum 
może znacznie podnieść komfort pracy i zwiększyć jej wydajność. 

Dwoma podstawowymi kwestiami, które mogą wzbudzić wątpliwości przy- 
szłych użytkowników systemów zarządzania dokumentami, są koszty wdrożenia 
oraz bezpieczeństwo danych. Jakkolwiek w tym pierwszym wypadku odpowiedź 
jest bardzo prosta - poniesione wydatki zwrócają się szybko w postaci znaczących 
oszczędności czasu personelu - to problemu zabezpieczenia przechowywanych 
informacji z pewnością nie można lekceważyć. 

Przystępując do korzystania z DMS należy więc przygotować i wdrożyć poli- 
tykę bezpieczeństwa danych - chodzi tu przede wszystkim o regularne wykony- 
wanie kopii zapasowych oraz regulację fizycznego i zdalnego dostępu do serwera 
bazodanowego. Wszystko po to, by nie sprawić sobie przykrej niespodzianki, 
gdy wszystkie dokumenty nagle odejdą w cyfrowy niebyt, na przykład z powodu 
uszkodzenia dysku. 


2.3.3. Rozwiązania komercyjne i Open Source 


Rozwiązania komercyjne dostępne na rynku to często produkty kompleksowe 
- poza samym przechowywaniem cyfrowych wersji dokumentów oferowane są 
w pakiecie usługi skanowania, katalogowanie, a nawet magazynowania orygina- 
łów w bezpiecznych i chronionych pomieszczeniach. Często są to produkty ska- 
lowane i parametryzowane do potrzeb ich użytkowników. 

Do pracy grupowej duże przedsiębiorstwa wykorzystują najczęściej takie roz- 
wiązania, jak Microsoft SharePoint, DocPoint, pakiet IBM FileNet P8 Platform czy 
EMC Documentum. Ich wspólną cechą są jednak wysokie koszty wdrożenia - 
często nie do zaakceptowania przez małe firmy czy mikroprzedsiębiorstwa. Al- 
ternatywą dla takich podmiotów mogą być aplikacje z otwartym kodem źródło- 
wym. Oczywiście należy pamiętać, że i w tym wypadku nieuniknione jest ponie- 
sienie pewnych kosztów - ktoś przecież musi system zainstalować, skonfiguro- 
wać i przeprowadzić szkolenie w zakresie jego obsługi. Wydatki mogą być jednak 
mniejsze, a korzyści z wdrożenia DMS - porównywalne. Poniżej opisano jeden 
z programów z tego sektora rynku. 


2.3.4. LogicalDOC jako przykład systemu DMS 


Program jest dostępny w dwóch wersjach - płatnej oraz Open Source (Com- 
munity Edition). w porównaniu z wersją płatną aplikacja z otwartym źródłem 
(na elastycznej licencji LGPL v3) jest uboższa o funkcje: rozpoznawania tekstu 
(OCR), współpracy z dokumentami MS Office 2007 (ze starszymi wersjami działa 
poprawnie) oraz zdalnego importu udostępnionych dokumentów. LogicalDOC 
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został stworzony przy wykorzystaniu technologii J2EE, powinien więc działać na 
każdym serwerze wyposażonym w ten kontener. Domyślnie oprogramowanie 
można pobrać wraz z serwerem Tomcat 6.0.16. Jako bazę danych można wyko- 
rzystać jeden z popularnych systemów, na przykład MySQL lub Oracle 9i/10i. In- 
stalacja sprowadza się do rozpakowania pliku archiwum, uruchomieniu serwera 
i ustalenia parametrów połączenia z bazą danych. Program nie został spolsz- 
czony, choć architektura systemu pozwala na dodanie samodzielnie wykonanego 
tłumaczenia dla każdego języka. 

Pliki przechowywane są w folderach i opisywane za pomocą prostych ozna- 
czeń, takich jak autor i data utworzenia oraz słów kluczowych. Te ostatnie po- 
zwalają na grupowanie i przeglądanie dokumentów pochodzących z różnych fol- 
derów. Podczas dodawania pliku można wybrać opcję automatycznego sugero- 
wania słowa kluczowego, choć jej implementacja pozostawia dużo do życzenia. 
Obsługa interfejsu jest mało skomplikowana, zdarzają się jednak błędy - na przy- 
kład zbyt długie nazwy folderów potrafią doprowadzić do zupełnej dezorganizacji 
głównego okna programu. Zauważalne są także pewne braki w ergonomii - fol- 
dery można co prawda przeglądać w wygodnej strukturze drzewa, ale wymaga to 
kilku dodatkowych zabiegów. 

Standardowo użytkownicy systemu należą do grup, do których przypisywane 
są prawa dostępu (odczyt, zapis) związane z plikami oraz folderami. Aby skorzy- 
stać z konkretnego pliku, należy mieć dostęp do wszystkich folderów, w których 
jest on umieszczony - na przykład Umowy -> Umowy kupna -> J.P. Kowalscy 
s.c.. Brak dziedziczenia praw może utrudniać codzienne korzystanie z systemu. 

LogicalDOC udostępnia wersjonowanie plików. Można przy tym dodać nową 
wersję główną (np. 1.0-2.0), poboczną (1.0-1.1) albo pozostawić oznaczenie bez 
zmian. Cały czas zachowuje się oczywiście dostęp do poprzednich wersji. Co 
ważne, program potrafi odczytać standardowe formaty plików biurowych (pakie- 
tów MS Office, OpenOffice, Adobe PDF) - dzięki czemu można w nim korzystać 
z wyszukiwania pełnotekstowego. Ciekawym pomysłem, pozwalającym zaosz- 
czędzić dużo czasu, jest także importowanie struktury plików w katalogach za 
pomocą archiwum ZIP 

Społeczność deweloperów LogicalDOC jest dość prężna. Raportowane błędy 
poprawiane są stosunkowo szybko (najpóźniej w ciągu 30 dni od zgłoszenia), 
a nowe wersje produktu pojawiają się co kilka miesięcy - ostatnia z nich dato- 
wana jest na październik 2008 roku. Mimo to błędy interfejsu, problemy z ergo- 
nomią i brak choćby najprostszego systemu zarządzania obiegiem dokumentów 
nie pozwalają wystawić aplikacji zbyt wysokiej noty. 


2.4. Ontologia Spime 


Ontologia Spime, o której będzie mowa w dalszej części tego rozdziału, po- 
wstała jako rezultat projektu realizowanego przez studentów Wydziału Elektro- 
niki Politechniki Wrocławskiej. Nazwa ontologii: Spime to słowo powstałe z po- 
łączenia dwóch słów: space i time. Ontologia została napisana w języku OWL 
przy użyciu narzędzia TopBraid Composer. Ontologia ta częściowo opiera się 
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na OWL-Time. w kolejnych podrozdziatach opisano efekt prac autorów zwiaza- 
nych z modyfikacją tej ontologii oraz zastosowaniem do indeksowania czasowo- 
przestrzennego dokumentów w ramach systemu LogicalDoc. 


2.4.1. Podstawowe klasy 


Document - jest to podstawowa klasa w ontologii Spime. Instancja tej klasy 
reprezentuje pojedynczy dokument w systemie LogicalDoc. To właśnie klasa 
Document jest fundamentem indeksu czasowoprzestrzennego. Posiada ona na- 
stępujące właściwości: 


- document ID - unikalny numer identyfikujący dokument, 

- documentDescription - słowny opis dokumentu, 

- regardsBuilding - określa jakiego budynku dotyczy dokument, 

- regardsCircle - określa jakiego obszaru ograniczonego okręgiem dotyczy 
dokument, 

- regardsContinent - określa jakiego kontynentu dotyczy dokument, 

- regardsCountry - określa jakiego państwa dotyczy dokument, 

— regardsInstant - określa jakiego punktu w czasie dotyczy dokument, 

- regardsInterval - określa jakiego przedziału czasowego dotyczy doku- 
ment, 

- regardsPointOnEarth - określa jakiego punktu na Ziemi definiowanego 
przez parę współrzędnych geograficznych dotyczy dokument, 

- regardsRectangle - określa jakiego obszaru ograniczonego prostokątem 
dotyczy dokument, 

- regardsTown - określa jakiego miasta dotyczy dokument. 


Instant - jest to klasa reprezentująca pojedynczy punkt w czasie. Jej jedyną 

właściwością jest: 

- time - punkt w czasie 

Interval - jest to klasa opisująca przedział czasowy. Posiada dwie właściwo- 

Sci: 

— hasBeginning - określa punkt w czasie (Instant), będący początkiem prze- 
działu czasowego, 


— hasEnd - określa punkt w czasie (Instant), będący końcem przedziału cza- 
sowego. 


Dopuszczalne jest niezdefiniowanie dla przedziału czasowego jednej lub obu 
właściwości. 


Place - jest to klasa pełniąca nadrzędną funkcję w stosunku do takich klas, jak: 
Building, Country itp. Reprezentuje miejsce lub obszar na Ziemi w najogól- 
niejszym sensie. 
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2.4.2. Podklasy Place 


Address - jest to klasa reprezentujaca adres pocztowy obiektu. Ze wzgledu na 
różne systemy numeracji budynków na świecie, takie właściwości klasy, jak: 
flatNumber czy houseNumber są typu xsd: string. Klasa Address posiada na- 
stępujące właściwości: 


— addressTown - miasto występujące w adresie pocztowym, 

- flatNumber - numer mieszkania. Może zawierać litery i inne znaki, 
- fullAddress - Pełny adres obiektu w postaci ciągu znaków, 

- houseNumber - Numer domu. Może zawierać litery i inne znaki, 

— postalCode - kod pocztowy, 

- street - nazwa ulicy. 


Building - jest to klasa reprezentująca budynek. Budynek może mieć swój ad- 
res, tzn. właściwości: 


- buildingAddress - adres budynku, 
- containedInTown - określa w jakim mieście znajduje się budynek. 


Circle - jest to klasa reprezentująca okrąg w terenie, opisany poprzez podanie 

współrzędnych geograficznych jego środka oraz promienia w metrach. Klasa ta 

posiada następujące właściwości: 

- center - definiuje środek okręgu w postaci pary współrzędnych geograficz- 
nych, 

- radius - promień okręgu podawany w metrach. 

Continent - jest to klasa reprezentująca jeden z siedmiu kontynentów. 

Country - jest to klasa reprezentująca państwo. Posiada następującą właści- 

WOŚĆ: 


- containedInContinent - określa na jakim kontynencie leży dane państwo. 


PointOnEarth - jest to klasa reprezentująca współrzędne geograficzne w syste- 
mie WGS 84. Właściwości tej klasy to: 


— latitude - długość geograficzna, 
— longitude - szerokość geograficzna. 


Rectangle - jest to klasa reprezentująca obszar w terenie ograniczony pro- 

stokątem, definiowanym jako dwie pary współrzędnych geograficznych: 'lewy 

górny” oraz prawy dolny’ róg. 

— lowerRightCorner - dolny prawy róg prostokąta. Jest to para współrzędnych 
geograficznych w systemie WGS 84, 


- upperLeftCorner - lewy górny róg prostokąta. Jest to para współrzędnych 
geograficznych w systemie WGS 84. 


Town - jest to klasa reprezentująca pojedynczy punkt w czasie. Jej jedyną wła- 
ściwością jest: 
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— time - punkt w czasie. 


2.5. Architektura systemu 


Architekturę systemu DMS z indeksowaniem opartym na ontologii pokazano 
na rys.[2.2] Podstawowym elementem jest baza danych o dokumentach. Ma ona 
zwykle postaé klasycznej relacyjnej bazy danych, zawierajacej podstawowe in- 
formacje o zarzadzanych dokumentach typu: $ciezka do pliku, autor, stowa klu- 
czowe itp. 


Interfejs uzytkownika 


i Dodawanie i usuwanie i | Tworzenie i usuwanie | 
i dokumentów z systemu; : indeksów 


Wyszukiwanie 


Unikalne ID 


Baza dokumentów Baza indeksów 


Rys. 2.2: Architektura systemu DMS z indeksowaniem opartym na ontologii. 


Każdy dokument musi mieć unikalne ID, które pozwala na połączenie bazy 
dokumentów z bazą indeksów ontologicznych. Indeksy te mają postać trójek 
RDĘ przypisujących dokumentowi o danym ID określone ustrukturyzowane wła- 
sności. w tym przypadku są to własności opisujące dokument w kategoriach 
czasowo-przestrzennych. Ich strukturę determinuje użyta ontologia, którą tutaj 
jest ontologia Spime. 

Użycie tego typu metadanych ma oczywiście określony cel. Jest nim umoż- 
liwienie czasowo-przestrzennego wyszukiwania dokumentów. Konieczne jest 
więc stworzenie mechanizmu pozwalającego na zadawanie odpowiednich zapy- 
tań do bazy indeksów. Takim mechanizmem jest SPARQL, czyli język zapytań dla 
RDE Umożliwia on formułowanie zapytań do baz trójek RDĘ podobnie jak język 
SQL czyni to dla relacyjnych baz danych. Dzięki temu można dokonywać wy- 
szukiwania na podstawie kryteriów czasowo-przestrzennych w bazie indeksów, 
a następnie, dzięki unikalnemu ID dokumentu, skojarzyć uzyskane wyniki z za- 
wartością bazy dokumentów. 

Aby uzyskać w pełni funkcjonalny system należy jeszcze umożliwić dodawa- 
nie, indeksowanie i usuwanie dokumentów z systemu. Ważne jest takie zaimple- 
mentowanie tych funkcji, aby zachować spójność przechowywanych danych oraz 
maksymalnie wykorzystać możliwości zastosowanej ontologii. Sporym proble- 
mem jest usuwanie indeksów ontologicznych. Przykładowo: kilka dokumentów 
może być powiązanych z jednym miastem, np. Wrocławiem. Usunięcie z sys- 
temu jednego z nich nie może powodować usunięcia trójek opisujących miasto 
Wrocław. Może tak się stać dopiero po usunięciu ostatniego z tych dokumen- 
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tow. Konieczne jest więc ciągłe śledzenie powiązań pomiędzy przechowywanymi 
indeksami, aby nie tracić informacji, ale również nie zaśmiecać bazy niepotrzeb- 
nymi elementami. 


2.6. Aplikacja do przeszukiwania ontologii 


Aplikacja służąca do przeszukiwania plików RDF zgodnie z ontologią Spime 
została stworzona w środowisku Windows. Program został napisany w języku 
Visual Basic w środowisku Microsoft Visual Studio 2008. Główne okno aplikacji 
przedstawiono na rys. [2.3] Okno to podzielone jest na trzy główne części odpo- 
wiedzialne za: konfigurację programu, parametry wyszukiwania, zapytanie SPA- 
RQL (wygenerowane na podstawie zaznaczonych parametró wyszukiwania). Pa- 
rametry wyszukiwania jakie można ustawić podzielono na trzy grupy: pierwsza - 
do wyszukiwania po danych adresowych; druga - do wyszukiwania na podstawie 
współrzędnych geograficznych; trzecia - do wyszukiwania na podstawie danych 
czasowych. Ostatnia część aplikacji służy do prezentowania zapytania w języku 
SPARQL które zostanie wygenerowane na podstawie wybranych parametrów. 

Program do prawidłowego działania wykorzystuje silnik wyszukiwania JENA 
zawarty w pakiecie ARQ. w jego konfiguracji należy odpowiednio ustawić 
ścieżki do: zewnętrznej aplikacji spargl.bat (o względnej ścieżce dostępu 
/bat/sparql.bat); pliku RDF zapisanego zgodnie z ontologią Spime; pliku do 
przechowywania zapytań SPARQL; pliku w którym będą przechowywane wyniki 
działania programu. 

Zapytania SPARQL budowane są fragmentami z wcześniej przygotowanych 
szablonów dla poszczególnych parametrów. Po kliknięciu jednego z przycisków 
generuj sprawdzane są informacje na temat wybranych przez użytkownika para- 
metrów i ich ustawień, a następnie tworzone jest kawałkami zapytanie SPARQL, 
z podstawieniem wartości parametrów. Przykładowe zapytanie SPARQL poka- 


zano na rys.|2.4] 
Przykładową odpowiedź na zapytanie SPARQL do bazy indeksów ontologicz- 


nych pokazano na rys.[2.5| 


2.7. Podsumowanie 


Realizując projekt związany z rozbudową systemu DMS o możliwość wyszuki- 
wania czasowo-przestrzennego na bazie indeksów ontologicznych napotkano na 
pewne trudności. Podstawowym problemem był brak dostępności do dokumen- 
tacji systemu DMS LogicalDoc. w wyniku prac zauważono, że aplikacja, która 
pierwotnie była Open Source, obecnie zaczyna przybierać charakter komercyjny. 
Istnieje kilka różnych wersji systemu, co jednoznacznie wskazuje na chęć stwo- 
rzenia płatnego systemu DMS. Z tego też powodu ostatnim dobrze udokumen- 
towane wydaniem jest wersja 5.1 tego systemu. Dlatego jako cel projektu po- 
stawiono zbudowanie aplikacji służącej do intuicyjnego przeszukiwania plików 
RDF stworzonych zgodnie z ontologią Spime. Program spełnił pokładane w nim 
oczekiwania i pozwolił na utworzenie zalążka być może nowego systemu DMS, 
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który zajmie miejsce LogicaDoc. Ze względu na początkowe trudności i ograni- 
czony czas realizacji projektu, stworzona aplikacja ma dość ograniczoną funk- 
cjonalność. Brakuje w niej możliwości dodawania nowych trójek i ich zapisanie 
w plikach RDE Jest to zadanie, które wymaga opracowania własnych rozwiązań. 


PREFIX spime: <http://example.orq/spimef> PREFIX xsd: <http://www .w3.orq/2001/XMLSchemaż> SELECT DISTINCT ? 
idocumentlD ?description WHERE { { ?document spime:documentlD ?documentID. OPTIONAL { ?document 
spime document Description description) ?document spime regardsContinent 2continent. ?continent 
spime:name "Europe". } UNION { document spime:documentlD ?documentID. OPTIONAL 4 ?document 
spime:documentDescription ?description) ?document spime regardsCountry ?country. . country spime:name 
Poland". ) UNION { ?document spime:documentlD ?documentlD. OPTIONAL { ?document spime:documentDescription ? 
description} ?document spime regards Town town. town spime:name "Wrocław". } UNION { ?document 
ispime:documentlD ?documentID. OPTIONAL { ?document spime :document Description ?description) ?document 
spime regards Building building. ?building spime:name "Kino". ) ) ORDER BY 2documentlD 


Rys. 2.4: Przykładowe zapytanie SPARQL. 
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[3 | "wystapienie Polski z UE."AAxsd:string — | i | 
14 | “Europa zostanie zalana przez Ocean Indyjski."AAxsd:string | 
| 6 | "I znowu meteoryt. Ale urwal."AAxsd:string | 


Rys. 2.5: Odpowiedz na zapytanie SPARQL. 
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PROGRAMOWE WSPARCIE PROCESU 
BUDOWY TEZAURUSA 
P. Batog, M. Pichlinski 


3.1. Wstep 


Rozwój komputerów, sprzętu elektronicznego oraz Internetu sprzyja zwiek- 
szaniu zasobów informacyjnych gromadzonych w sieci oraz rozwojowi metod ich 
udostępniania. W roku 2003 za pomocą wyszukiwarek internetowych można było 
sięgnąć do 167 terabajtów danych tzw. powierzchniowego Internetu, czyli trzy- 
krotnie więcej niż w 2000 roku [I]. Przedstawiciele IBM w 2006 roku przewidy- 
wali, że w 2010 ilość przechowywanej elektronicznej informacji będzie zwiększała 
się dwukrotnie w przeciągu 11 godzin (niekoniecznie w samej sieci) [2]. Biorąc 
pod uwagę fakt, ze Internet powierzchniowy to dopiero wierzchołek góry lodowej 
(szacuje się, że tzw. głęboki Internet, czyli taki, którego dane ukryte za strefami 
zabezpieczeń, jest 500 krotnie większy od Internetu dostępnego z poziomu wy- 
szukiwarek [3]) widać, jak wielki zasób informacji został zgromadzony już w sie- 
ciach komputerowych. Z tego też powodu coraz trudniej znaleźć jest potrzebne 
dane, coraz więcej problemów sprawia samo wyszukiwanie, coraz ciężej jest opa- 
nować chaos informacyjny [2]. Te i podobne problemy wynikające z konieczności 
przetwarzania zasobów wiedzy próbuje się rozwiązać za pomocą modeli danych 
strukturalnych. 

W niniejszej rozdziale zostanie przedstawione ontologiczne podejście do bu- 
dowy modeli informacyjnych zilustrowane przykłem tworzenia tezaurusa. Omó- 
wione zostaną pojęcia modelu informacyjnego oraz ontologii. Następnie przed- 
stawiona zostanie odpowiedź na pytania: Czym jest tezaurus? Jak wygląda proces 
jego tworzenia oraz jakie ma on zastosowania? Pod koniec rozdziału opisana zo- 
stanie specyfikacja SKOS będąca podstawą w implementacji omawianego tezau- 
rusa. 


3.1. Wstep 


3.1.1. Czym są modele informacyjne? 


Modele informacyjne służą do reprezentacji zasobów wiedzy, takich jak: kon- 
cepty, relacje, ograniczenia, zasady, operacje. Nadają one znaczenia semantycz- 
nego zgromadzonym danym [4]. Dzięki modelom informacyjnym wiedza, która 
jest w nich przechowywana, nabiera elastyczności pozwalającej na: dzielenie jej 
pomiędzy różnymi aplikacjami, łatwiejsze wyszukiwanie pożądanych informacji 
oraz dostosowanie do potrzeb użytkownika [5]. 

Warto wspomnieć o różnicy pomiędzy modelami informacyjnymi a mode- 
lami danych, które mogą być mylnie utożsamiane ze sobą. Celem tych pierw- 
szych jest zarządzanie modelami na poziomie ideowym oraz przedstawienie re- 
lacji pomiędzy nimi, niezależnie od konkretnych implementacji bądź protoko- 
łów transmisji danych. Model informacyjny jest narzędziem przeznaczonym dla 
projektantów. Natomiast modele danych odnoszą się niższemu poziomowi abs- 
trakcji, zawierają więcej szczegółów, są one już konkretną implementacją modeli 
informacyjnych [6]. 


3.1.2. Ontologia jako model informacji 


Celem stworzenia modelu informacji jest nadanie jej wyższego stopienia or- 
ganizacji. Uporządkowanie ma zaś umożliwić łatwiejsze przetwarzanie informa- 
cji i wyciąganie na ich podstawie określonych wniosków. Innymi słowy jest to 
dodanie abstrakcji umożliwiającej przechodzenie od informacji w kierunku do 
wiedzy. Budowa modelu informacji jest zagadnieniem z natury heurystycznym. 
Nie istnieją bowiem ogólne prawa, według których proces budowy takiego mo- 
delu miałby zostać przeprowadzony. 

Budowa modelu ściśle wiąże się z dziedziną i problemem, którego ma być roz- 
wiązaniem. W dzisiejszych czasach dostępnych jest mnóstwo odpowiednich me- 
tod itechnik. Z uwagi na różnorodność zastosowań modyfikuje się ogólnie znane 
metody, bazując na doświadczeniach w konkretnych zagadnieniach i technikach. 
Taka sytuacje bywa nazywana w literaturze „dżunglą metodologiczną” [7]. W ni- 
niejszej pracy skupiono się na podejściu ontologicznym. 

Ontologia jest reprezentacją dystrybuowanej konceptualizacji określonej 
dziedziny. Mówiąc prościej, ontologia definiuje wspólną warstwę pojęciową w 
danej dziedzinie oraz rozwija konceptualizację poprzez dodanie relacji pomiędzy 
poszczególnymi podmiotami (obydwa pojęcia mają swoje korzenie w naukach fi- 
lozoficznych). 


e Konceptualizacja - próba określenia ścisłych pojęć, (usunięcie wieloznaczno- 
ści) niezbędnych do opisu jednoznacznie rozumianego procesu z określonej 
dziedziny. 

Ontologia - (od greckich ovTo - bytitoyoc - nauka ) najogólniejsza nauka roz- 
ważająca pojęcie bytu, do XVII w utożsamiana z metafizyką. Jej początków 
można szukać u Arystotelesa. Dziedzina metafizyki, związana z badaniem, wy- 
jaśnianiem natury, kluczowych właściwości oraz relacji rządzących wszelakimi 
bytami oraz głównych zasad i przyczyn bytu. 
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W praktyce technologii informacyjnych poprzez ontologię rozumie się świa- 
domą, formalną specyfikację konceptów (pojęć) w danej dziedzinie i relacji po- 
między nimi. Ontologia łączy ze sobą nie tylko wyrażone w niej pojęcia, ale rów- 
nież wiedzę, która może być na jej podstawie wywnioskowana. Jako sposób re- 
prezentacji zintegrowanego modelu wiedzy z danej dziedziny oraz jako instru- 
ment badawczy treści informacji tekstowej jest obecnie, razem z innymi techno- 
logiami informatycznymi, jednym z kluczowych elementów rozwijającej się idei 
społeczeństwa informacyjnego. Dowodem na to jest dynamiczny rozwój inter- 
netu trzeciej generacji. 


3.2. Tezaurus 


Tezaurus w ogólnym rozumieniu stanowi słownik terminów bliskoznacznych. 
Słowo tezaurus pochodzi z greckiego Onoavpoc, co oznaczało zbiór rzeczy 
o wielkiej wartości (magazyn, skarbiec). W technologii informacyjnej i bibliote- 
koznawstwie tezaurus jest ściśle określonym rozwinięciem słownika. Jest to zbiór 
semantycznie i hierarchicznie powiązanych terminów, ułatwiający wyszukiwanie 
informacji. 

Tezaurus jest pewnego rodzaju zastosowaniem podejścia ontologicznego w 
celu sklasyfikowania słów języka naturalnego. Jak wiadomo, język naturalny za- 
wiera wiele słów o wielu znaczeniach, ale relacje pomiędzy słowem a jego zna- 
czeniem nie są jednoznaczne. Jedno słowo bowiem może mieć wiele znaczeń, 
a jedno pojęcie może być wyrażane przez wiele słów. Co więcej, często relacje 
te zmieniają się w zależności od kontekstu użycia jak i interpretacji samych osób 
je wypowiadających i czytających. Człowieka interesuje przeważnie znaczenie, 
jednak musi się on posługiwać słowami. 

Idealnym tezaurusem byłby system komputerowy, który pobierając pewne 
słowa zdołałby odpowiednio je zinterpretować i zmapować na koncepty odzwier- 
ciedlające sedno poszukiwań, dzięki czemu możliwe byłoby zwrócenie dokład- 
nie wszystkich wyników interesujących użytkownika, ale bez żadnego nadmiaru. 
Przykładowo, na zapytanie „lodówka” system wyświetli także to, co było opisane 
jako „chłodziarko-zamrażarka” ale już nie jako „chłodnie”. 

Rozumienie relacji zachodzących pomiędzy słowami i znaczeniami jest czę- 
ścią ludzkiej inteligencji. Nauka tych relacji to proces, który trwa przez całe życie. 
Jest to nietrywialne zagadnienie, o czym świadczą tak zwane nieporozumienia 
występujące podczas wymiany informacji, gdy odbiorcy i nadawca inaczej rozu- 
mieją znaczenie przekazywanych słów. Świadczy o tym także szacunek dla ludzi, 
którzy opanowali umiejętność jasnego i zwięzłego wypowiadania się. Jak jednak 
nauczyć tego maszynę, jak zaimplementować komputerowe przetwarzanie wie- 
dzy i wyszukiwanie informacji w ogromnych zbiorach danych? 


3.2.1. Katalog przedmiotowy 


Pierwszą próbę semantycznego usystematyzowania terminów podjęli już 
dawno bibliotekarze. Było nią utworzenie katalogu przedmiotowego. W takim 
systemie każda z książek opisana jest jednym lub wieloma hasłami z katalogu. 
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Zakłada sie, że opisywanie zawartości tematycznej książek, jak i wyszukiwanie, 
odbywa się przy użyciu tego samego zbioru słów. Niestety katalog taki jest mało 
elastyczny i odporny, a efektywne korzystanie z niego jest rzeczą wymagającą od- 
powiedniego przygotowania. O ile doświadczony bibliotekarz na co dzień obcu- 
jący z katalogiem nie ma problemów z określeniem odpowiednich kategorii, to 
przypadku przeciętnego użytkownika część zasobów pozostanie ukryta, bowiem 
jego intuicje co do tego do jakiej kategorii został zaklasyfikowany poszukiwany 
przez niego temat mogą być mylne. Co więcej, odwołując się do hasła np. Rzeki 
w Polsce można znaleźć jedynie pozycje omawiające ogólnie Rzeki, natomiast już 
nie odnajdzie się monografii o Odrze, Wiśle itd. ani książek opisujących ogólnie 
rzeki w Europie. Użytkownik musiałby odnaleźć w katalogu pojęcia węższe i szer- 
sze a następnie przeszukać listy książek im odpowiadające, co z pewnością byłoby 
czasochłonne. 

Komputeryzacja katalogu zwiększa wygodę użytkowania i efektywność sys- 
temu, m.in. poprzez znaczne zwiększenie ilości kategorii możliwych do przeszu- 
kania w tym samym czasie, jednak nie zmienia zasady działania, i nie usuwa jego 
zasadniczych wad. Co więcej, z komputerowych katalogów korzystają z reguły 
bez pomocy bibliotekarzy sami czytelnicy, przeważnie nie uświadamiający sobie 
opisanych wad katalogów, co może zniechęcać do odwiedzania bibliotek i pro- 
wadzić do frustracji. 


3.2.2. Wyszukiwanie w katalogach 


W ostatnich latach do opisywania danych coraz częściej wykorzystuje się 
technologię słów kluczowych. Dzięki temu możliwe jest „wyszukiwanie po sło- 
wach kluczowych”. Z uwagi na ich „luźny” charakter należy stwierdzić, że jest 
to technologia komplementarna w stosunku do słownictwa kontrolowanego [8]. 
Choć oczywiście jest ona bardzo użyteczna, posiada jednak szereg wad takich 
jak: 
¢ konieczność podawania synonimów, 

e niepełny opis, 

e brak usystematyzowania, 

* zwracanie setek bezużytecznych trafień (wyszukiwarki internetowe), 
brak relacji, 

trudności ze zbudowaniem systemu inteligentnego. 


Zamiast ograniczać się do samego opisu danego podmiotu, można rozważyć 
jako alternatywę odwołanie się do pełnego tekstu - książki, artykułu itp. Jest to 
„wyszukiwanie pełnotekstowe”. Niestety, nie wszystko posiada swój „pełny tekst”. 
Obiektem kategoryzacji i wyszukiwania są nie tylko książki i artykuły, ale także 
dzieła sztuki, utwory muzyczne, artykuły sklepowe i wiele innych. Warto za- 
uważyć, że sama zawartość bibliotek jest rzadko w pełni zdigitalizowana a pełny 
tekst dostępny w formie elektronicznej. Ponadto wyszukiwanie pełnotekstowe 
ma swoje ograniczenia, m.in.: 


e znacznie dłuższy czas trwania, 
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e zwracanie znacznie większej ilości bezużytecznych trafień, 
e ograniczenie do jednego języka naturalnego. 


3.2.3. Proces tworzenia tezaurusa 


Tezaurus w uproszczeniu można rozumieć jako zbiór słownictwa kontrolowa- 
nego i zbiór relacji zachodzących pomiędzy słowami. Słownictwo kontrolowane 
jest ujednoznacznione (poprzez jawne zdefiniowanie pojęć lub rozróżnienie po- 
między różnymi znaczeniami tego samego słowa). Przeważnie zbiór słów jest 
ograniczony do jakiejś konkretnej dziedziny, w której będzie wykorzystywany. Do 
opisu zasobów wolno posługiwać się tylko słowami które są w systemie. 

Następnym krokiem w organizacji wiedzy jest określenie reguł relacyjnych za- 
chodzących pomiędzy danymi konceptami. Koncept jest pojęciem abstrakcyj- 
nym, może odpowiadać mu wiele słów, ale może też nie istnieć właściwe słowo. 
Najczęściej spotyka się implementację następujących reguł: 


e Hiperonimia - terminy nadrzędne (koncepty ogólniejsze), 

e Hiponimia - terminy podrzędne (koncepty bardziej szczegółowe), 

e Synonimia - termin bliskoznaczny (wymienienie Deskryptorów - terminów pre- 
ferowanych i Askryptorów), 

e Homonimia - różne znaczenie tego samego słowa (stworzenie odrębnych kon- 
ceptów), 

e Asocjacja - skojarzenie ze sobą pokrewnych konceptów. 


Poprzez dodanie relacji hierarchicznych i skojarzeniowych, otrzymuje się na- 
rzędzie, które umożliwia stworzenie inteligentnego systemu wyszukiwawczego 
oferującego znacznie większe możliwości niż zwykły katalog. Jadwiga Woźniak- 
Kasperek [9] wymienia następujące etapy budowy tezaurusa: 


1. Określenie zakresu języka. 

2. Wskazanie źródeł, z których (lub na podstawie których) będzie pobierane 
słownictwo. 

. Robocze określenie struktury części rzeczowej (systematycznej) tezaurusa. 

. Wybór metody gromadzenia słownictwa. 

. Zgromadzenie słownictwa. 

„ Ustalenie zasad tworzenia ciągów synonimicznych. 

. Ustalenie, jak będą „oddzielane” różne znaczenia wyrażeń wieloznacznych. 

. Wybranie sposobu zapisu deskryptorów, askryptorów, ew. modyfikatorów, 
przyjęcie notacji, za pomocą której będą oznaczane typy relacji łączących ha- 
sła w tezaurusie. 

9. Opracowanie kilku wzorcowych przykładów artykułów deskryptorowych 
i askryptorowych (z komentarzem). 
10. Opracowanie tezaurusa, w tym części systematycznej. 


O NOO R W 


3.2.4. Przykłady tezaurusów 


Od XVI w. nazwa tezaurus występuje jako oznaczenie słownika lub leksykonu. 
W Polsce, pierwszym dziełem tego typu był Thesaurus Polono-Latino-Graecus 
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3.3. Dokumenty normatywne 


Grzegorza Knapiusza (Kraków 1621-32). Twórcą pierwszego nowożytnego, usys- 
tematyzowanego semantycznie tezaurusa był Peter Mark Roget. Thesaurus of 
English Words and Phrases, dzieło jego życia, ukazało się w 1852 r. w Londynie 
i jest używane także dziś, choć oczywiście nieustannie aktualizowane. Tezaurus 
Rogeta dotyczył języka angielskiego i zawierał 6 poziomów hierarchicznych. Te- 
zaurusy jako język wyszukiwawczo-informacyjny zaczęły rozwijać się intensyw- 
nie w drugiej połowie XX w. i trend ten trwa właściwie do dzisiaj. Pierwszy polski 
tezaurus ukazał się w 1969 r. i był wykazem terminów z zakresu urządzeń budow- 
lanych i transportu bliskiego [10]. Budową (także wielojęzycznych) tezaurusów, 
m.in. w zakresie dziedzictwa kulturowego, zajmuje się wiele ośrodków nauko- 
wych w Europie (korzystając także ze wsparcia Unii Europejskiej). Przykładowe 
tezaurusy dostępne on-line: 


¢ Roget Thesaurus http: //www.roget.org/ 
e WordNethttp://wordnetweb.princeton.edu/perl/webwn 


e Visual Thesaurus http: //www.visualthesaurus.com/ 


e Tezaurus Dziedzictwa Kulturowego http://historiasztuki.uni.wroc.pl/ 


tezaurus.html 


Tezaurusy mogą być stosowane wszędzie tam, gdzie zachodzi potrzeba wyszu- 
kiwania lub „zrozumienia” tekstu przez komputer. Takimi miejscami mogą być: 
biblioteki, archiwa, muzea, bazy danych, rozbudowane sklepy internetowe i ser- 
wisy aukcyjne, systemy przetwarzania i rozumienia mowy. Tezaurusy mogą roz- 
szerzać opcje wyszukiwania wyszukiwarek. 


3.3. Dokumenty normatywne 


3.3.1. Wzorce i modele tezaurusów 


Za wzorzec tezaurusa uważa się opublikowany w 1967 r. Thesaurus of Engi- 
neering and Ścientific Terms (TEST), który powstał w ramach tzw. projektu LEX, 
realizowanego w latach sześćdziesiątych wspólnie przez Office of Naval Rese- 
arch amerykańskiego Department of Defence (DOD) oraz Engineering Joint Co- 
uncil (EJO). Miał on formę tzw. alfabetyczno-hierarchicznego wykazu deskrypto- 
rów i askryptorów, w którym zastosowano symetryczne oznaczenia relacji ekwi- 
walencji (use — use for), hierarchicznych (broader term oraz narrower term) oraz 
asocjacyjnych (related term) używanych do dzisiaj [10]. Na podstawie właśnie 
tego systemu powstała w USA pierwsza na świecie norma dotycząca budowy te- 
zaurusów - ANSI Z39.19-1974. Pierwszym międzynarodowym standardem była 
norma ISO 2788 Documentation — Guidelines for the Establishment and Develop- 
ment of Monolingual Thesauri [11], przyjęta w Polsce jako PN/N-09008. Z po- 
czątkiem XXI w., w związku z koniecznością zapewnienia odpowiedniej elastycz- 
ności (interoperacyjności pomiędzy tezaurusami i innymi systemami organizacji 
wiedzy), wydane zostały nowe normy: amerykańska Z39.19-2005 Guidelines for 
Construction, Format, and Management of Controlled Vocabularies [12], brytyj- 
ska BS 8723 Structured Vocabularies for Information Retrieval [14]. W trak- 


cie tworzenia jest międzynarodowa norma ISO 25964 (http: //www.niso.org/ 
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workrooms/iso25964/). Diagram klas, wchodzących w skład tezaurusa według 


normy BS 8723, został umieszczony na rys.[3.1] 


Thesaurus NodeLabel EJ RA ThesaurusArray 
O S0. 4 +Notation: String[0..1] +IsLabelledBy +identifier: String[1] 
+coverage: String[0..*] +LexicalValue: String[1] 1 | +Ordered: Boolean = false[1] 
toreator String -*] +created: date[0..1] +HasMember <ordered> 
$date: date[o.*| © +modified: date[0..1] mE 

ted: data lang: language[0..1 i 
+created: date[0..1] +lang: languag É 
+modified: date[0..*] +HasSuperOrdinate 
+description: String[0..*] 1 0:4 
+format: String[0..*] +Contains 
+language: language[1..*] = 
+publisher: String[0..*] +Thesaurus 0.. 
+relation: String[0.."] an a z 0..1 +HasSubordinate 
sdn: SARAD 1, 1 +Contain ARE +HasSuperOrdinate 7 
+subject: String[0.."] > 1.3 +identifier: String[1] 1.2 +lsMemberOf 
title: String[O."] *ispartof ~ | +oreated: date[0..1] oF 
be Site (0. 1 os +modified: date[0..1] +HasMember <ordered> ks 
e oe = retells: = SOO i 0..* HierarchicalRelationship 
+HasTopConcept lotation: String[0..*] r : 
TopLevelRelationship dl pe +TopConcept: Boolean[0..1] OI +Role: String[1] 
#isTöpConceptof +IsHierRelConcept CustomAttribute 
= 1 +HasAttribute z ; 
AssociativeRelationshi +LexicalValue: String[1] 
— Po. | tHasRelaledGoncent +IsAttributeOf 0..* | +CustomAttributeType: String[1] 
Eee - 0..* +lsReferredToln 
+lsRelatedConcept Note 
1 +RefersTo g” 
1 +LexicalValue: String[1] 
+Labels 4 a +created: date[0..1] 
+DefinesScopeOt +modified: date[0..1] 
+Labels 1 +lang: language[0..1] 
NN > 
+Annotates A 
0..* |+HasNonPreferredTerm 4..* |+HasPreferredTerm 
+HasScopeNot: ScopeNote 
SimpleNonPreferredTerm 0..* +USE|PreferredTerm |2..* +UF+ CompoundNonPreferredTerm 0.* p 
+UF 1 USE+: 0..* 5 
i i HistoryNote 
Equivalence CompoundEquivalence +HasHistoryNote| 


+Role: String[0..1] 


1 +HasHistoryRót 
ThesaurusTerm YÁnnotates 0..* 
+LexicalValue: String[1] fs Definition 
+identifier: String[1] 1 +HasDefinition| 
+created: date[0..1] = HY * 

> modified: date[0..1] HsDefinitionOf De 

+source: String[0..1 
{> +Status: Seat 1 +HasEditorialNote| 
+lang: languagef0..1] +Annotates 0..* 


+source: String[0..1] 


EditorialNote 


Rys. 3.1: Klasy wchodzace w sktad tezaurusa, wedtug normy BS 8723. 


3.3.2. Jezyk SKOS 


Simple Knowledge Organization System jest językiem, który pozwala na two- 
rzenie systemow organizacji wiedzy jak tezaurusy, schematy klasyfikacji, systemy 
nagłówkowe oraz taksonomie. Modele, które są zapisane za pomocą SKOS, mogą 
być łatwo przetwarzane przez maszyny, wymieniane pomiędzy aplikacjami kom- 
puterowymi oraz publikowane w internecie. 

Modele informacyjne utworzone w języku SKOS spełniają warunki OWL Full 
ontology i mogą one zawierać również informacje zapisane za pomocą OWL (Web 
Ontology Language). SKOS, podobnie jak OWL, powstał w oparciu o definicje 
RDF (Resource Description Framework) i formalna składnia jaką się posługuje to 
RDF/XML oraz Turtle [15]. 

Słowa wykorzystywane w języku SKOS zostały zdefiniowane w przestrzeni 
nazw: reprezentowanej w niniej- 
szym dokumencie przedrostkiem skos:. Na podstawie dostępne są nastę- 
pujące słowa kluczowe, które definiują klasy (słowa zaczynające się z dużej litery) 
oraz właściwości (są pisane z małej litery): 
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skos:Concept - jednostka myśli, będąca abstrakcyjną encją, niezależną od po- 

jęć użytych do jej etykietowania; semantyczna zawartość danego konceptu, 

może zostać wyrażona za pomocą kombinacji innych konceptów . 

Etykiety - są cechami konceptów, które służą jako odnośniki do nich wyra- 

żone w języku naturalnym. SKOS pozwala na tworzynie etykiet w różnych języ- 

kach w postaci: "treść etykiety"tskrót_języka. Istnieją trzy rodzaje ety- 
kiet, które wzajemnie się wykluczają (niedozwolone jest istnienie etykiet in- 
nego typu o tej samej treści): 

- skos:prefLabel - preferowana etykieta, może być tylko jedna dla danego 
konceptu; nie jest zabronione, by różne koncepty zawierały tę samą etykietę, 
jednak zaleca się, by takich przypadków nie było 

- skos:altLabel - alternatywna etykieta, przydatna do określenia synoni- 
mów, jak również wyrazów bliskoznacznych oraz akronimów 

- skos:hiddenLabel - ukryta etykieta, dostępna jedynie wewnętrznie dla apli- 
kacji w celu indeksowania i wyszukiwania, nie jest ona widoczna dla użyt- 
kownika; może służyć do uwzględniania literówek podczas poszukiwania da- 
nego konceptu 


Relacje - służą do wiązania konceptów pomiędzy sobą. SKOS dostarcza nastę- 

pujące typy relacji: 

— skos:narrower - hierarchiczne połączenie z konceptem bardziej szczegóło- 
wym na przykład: 


ex:figuraGeometryczna rdf:type skos:Concept; 
skos:narrower ex:kwadrat. 
ex:kwadrat rdf:type skos:Concept. 


- skos:broader - łączy dany koncept z konceptem bardziej ogólnym: 


ex:kwadrat rdf:type skos:Concept; 
skos:broader ex:figuraGeometryczna. 
ex:figuraGeometryczna rdf:type skos:Concept. 


— skos:related - łączy z innym konceptem bez ustalania hierarchii, nie jest 
relacją tranzytywną. 

Pojęcia skos:broader i skos:narrower są przeciwieństwami, więc wystarczy 

określić tylko jedną z tych relacji, druga natomiast zostanie automatycznie 

przypisania w procesie wnioskowania OWL. Dodatkową cechą wyżej wymie- 

nionych relacji jest brak ich tranzytywności, czyli: 


ex:figuraGeometryczna rdf:type skos:Concept; 
skos:narrower ex:prostokat. 

ex:prostokat rdf:type skos:Concept; 
skos:narrower ex:kwadrat. 

ex:kwadrat rdf:type skos:Concept. 


nie implikuje relacji: 
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ex:figuraGeometryczna skos:narrower ex:kwadrat. 


Jednak w opisane są tranzytywne wersje relacji broader i narrower: 
skos:broaderTransitive, skos:narrowerTransitive, które umożliwiają 
z powyższej deklaracji wnioskować: 


ex:figuraGeometryczna skos:narrowerTransitive ex:kwadrat. 


Należy pamiętać również o tym, że poszczególne typy relacji wzajemnie się wy- 
kluczają. 

e Przypisy dokumentacyjne - informacje w postaci zrozumiałej dla człowieka, 
przypisane do konceptu, w celu jego opisania: 


- skos:definition - zawiera pełne wyjaśnienie znaczenia danego konceptu, 

- skos:example - zawiera przykłady użycia konceptu, 

— skos: scopeNote - dostarcza częściowego znaczenia konceptu w szczególno- 

ści określa zakres jego użycia, 

- skos:historyNote - opisuje znaczące zmiany jakie zaszły w znaczeniu, bądź 

formie konceptu, 

- skos:editorialNote - informacja od autora, umieszczana w celu ułatwie- 

nia utrzymania konceptu, 

— skos:changeNote - informacja o zmianach w koncepcie, umieszczona w ce- 
lach administracyjnych. 


e Schematy konceptów - służą do grupowania, pojedynczych konceptów, w celu 
ułatwienia indeksowania i tworzenia np. tezaurusów: 


kos:Concept Scheme - kontener będący schematem konceptów, zawierają- 

ym inne koncepty, 

kos :hasTopConcept - przypisuje danemu schematowi, najwyższy w hierar- 

hii koncept; może być kilka najwyższych konceptów, 

kos:topConceptOf - przypisuje danemu konceptowi schemat konceptów, 

w którym będzie on najwyższy w hierarchii, 

— skos:inScheme - przypisuje danemu konceptowi schemat konceptów, 
w którym się znajduje, bez określenia hierarchii. 


S 
c 
S 
c 


I 
u 


Niestety w określone jest, że relacje pomiędzy konceptami (tzn. 
skos:broader, skos:narrower itp.) nie są przenoszone na schemat koncep- 
tów, czyli: 
ex:tezaurusAstronomiczny rdf:type skos:ConceptScheme; 
skos:hasTopConcept ex:cialoNiebieskie. 
ex:cialoNiebieskie rdf:type skos:Concept; 
skos:narrower ex:gwiazda. 
ex:gwiazda rdf:type skos:Concept. 


nie implikuje: 


ex:gwiazda skos:inScheme ex:tezaurusAstronomiczny 
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e Mapowanie konceptów pomiędzy schematami - SKOS dostarcza odpowied- 
nich narzędzi, pozwalających mapować między sobą poszczególne koncepty 
w różnych schematach: 


- skos:exactMatch - dokładne dopasowanie, koncepty są identyczne, 
- skos:closeMatch - dopasowanie częściowe, które oznacza, że koncepty 
mogą być używane zamiennie, jednak w ograniczonym zakresie, 


- skos:broaderMatch - dopasowanie konceptu o bardziej ogólnym znacze- 
niu, 

- skos:narrowerMatch - dopasowanie konceptu o bardziej szczegółowym 
znaczeniu, 


- skos:relatedMatch - dopasowanie konceptu o powiązanym znaczeniu 
z danym konceptem bez wyróżnienia hierarchii. 


Kolekcje - służą do zgrupowania konceptów, które mogą zostać wspólnie dzielić 
tą samą etykietę: 


- skos:Collection - kolekcja konceptów, 

kos:OrderedCollection - kolekcja konceptów, których kolejność jest zna- 
ząca, jak np. kolekcja „wykształcenie”, która może zawierać: podstawowe, 
średnie, wyższe, 

- skos:member - przypisuje do danej kolekcji, wybrany koncept, użycie: 


Qn n 


A 


kolekcja> skos:member <koncept> 


- skos:memberList - przypisuje do danej kolekcji, liste konceptów, użycie: 


A 


kolekcja> skos:memberList (<konceptl> <koncept2>) 


3.4. Przykładowa implementacja tezaurusa 


Tworzenie aplikacji operujących na tezaurusach nie jest łatwym zadaniem. 
Jednym z ważniejszych problemów jest obsługa bardzo dużych modeli. Próba 
wczytania pokaźnych rozmiarów tezaurusa w całości może zakończyć się zuży- 
ciem całej dostępnej pamięci. W celu uniknięcia tego problemu należy ładować 
do programu tylko tą część pliku, która jest w rzeczywistości potrzebna. 

Kolejnym poważnym problemem jest utrzymanie spójności modelu. Przykła- 
dowo dodanie szerszej relacji wiąże się ze sprawdzeniem, czy koncept, który ma 
być wyżej, nie zawiera żadnego powiązanego, bądź bardziej ogólnego konceptu 
takiego samego jak jakikolwiek koncept węższy lub powiązany w stosunku do 
słowa bazowego. Co więcej należy to rekurencyjnie powtarzać na tych gałęziach, 
aż do momentu, gdy zostaną osiągnięte liście drzewa. Całość została przedsta- 
wiona na rys. Takie sprawdzanie wiąże się z tym, że przy dużym tezaurusie 
stworzenie kolejnych relacji będzie uniemożliwione poprzez długi czas weryfika- 
cji poprawności modelu. 

Przeszukiwanie również należy do zadań, które mogą sprawić problemy. 
Samo znalezienie danego słowa w danym modelu nie jest trudne. Jednak jeśli ce- 
lem jest odnalezienie wszystkich konceptów powiązanych z danym elementem, 
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Tworzona relacja 


Vv 


O) e o o o © Koncepty, które nie mogą 
należeć do konceptów powiązanych 
bądź węższych konceptu bazowego 
Koncept bazowy e aa @ 
e © o o @ 


Rys. 3.2: Przykład sprawdzenia dodawanej relacji. 


możliwe jest powstanie cykli i pojawienie się nieskończonych pętli. Wymusza to 
śledzenie odwiedzanych słów, co zwiększa narzut pamięciowy i czasowy. W ko- 
lejnych podrozdziałach opisano założenia oraz sposób implementacji własnego 
tezaurusa. 


3.4.1. SKOSAPI 


Do implementacji własnego tezaurusa można wykorzystać bibliotekę ,SKOS 
API” napisaną w języku JAVA (więcej informacji o tej bibliotece można znaleźć 
pod adresem http: //skosapi.sourceforge.net/) lub inne biblioteki dostar- 
czające metod do przetwarzania dokumentów RDE repozytoriów trójek itp. 

W rozwiązaniu, które opisano w dalszych częściach niniejszego rozdziału, wy- 
korzystano autorską bibliotekę napisaną w języku C++. Stworzony interfejs do 
języka SKOS bazuje na bibliotece Soprano - the Qt/C++ RDF framework oraz Qt. 
Pierwsza z nich zapewnia parsowanie i serializację plików. Dzięki parserowi, do- 
kument zawierający definicję tezaurusa przetwarzany jest na listę trójek RDE Na 
podstawie tych stwierdzeń tworzone są obiekty klas z języka SKOS oraz zostają 
im przypisane odpowiednie właściwości określone przez specyfikację na stro- 
nie WSC. W trakcie wczytywania pliku dodawane są kolejne elementy tezaurusa, 
do modelu, który ma zawierać wszystkie definicje. Każdy koncept, bądź relacja, 
przed umieszczeniem w tworzonej bazie jest sprawdzana pod względem spójno- 
ści. W przypadku naruszenia poprawności modelu dodawany element zostaje 
zignorowany. 

Biblioteka Qt została wykorzystana do stworzenia odpowiednich kontenerów 
na wszystkie koncepty, relacje, etykiety itd. znajdujące się w modelu. Nie użyto 
pojemników dostarczanych przez STL, by zachować spójność z Soprano oraz in- 
terfejsem użytkownika (stworzonym również w Qt). Użycie QList umożliwiło ła- 
twe rozszerzanie modelu np. o nowe koncepty, dzięki czemu został zredukowany 
problem zarządzania pamięcią. 

Ze względu na ograniczony czas na realizację projektu autorska biblio- 
teka SKOS API nie implementuje całego zasobu słownictwa SKOS. W aplikacji 
obsługiwane są: skos:Concept, skos:ConceptScheme, skos:prefLabel, 
skos:altLabel, skos:hiddenLabel, skos:definition, skos:broader, 
skos:narrower, skos:related. 
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3.4.2. Interfejs użytkownika 


Interfejs użytkownika składa się zasadniczo z dwóch okien: przeglądarki oraz 
edytora. W pierwszym znajduje się podgląd zasobu słownictwa w tezaurusie 
(lista etykiet wszystkich pojęć) oraz pola umożliwiające przedstawienie wybra- 
nego pojęcia, tzn. jego etykiet-synonimów, definicji oraz konceptów z nim powią- 
zanych. Użytkownik może wybrać język wyświetlanego słownictwa oraz odpo- 
wiednio skonfigurować wyświetlane pola. W szczególności może wybrać rodzaj 
uwzględnianych relacji oraz ustawić głębokość przeszukiwania grafu powiązań. 
Okno graficzne przeglądarki przedstawiono na rys.|3.3] 

W oknie edytora możliwa jest edycja etykiet oraz definicji w wybranym języku 
(domyślnie polskim). Można także usunąć relację spośród już istniejących lub 
dodać relację określonego rodzaju z konceptem będącym już w bazie. Podczas 
dodawania relacji sprawdzona będzie spójność modelu. Przy usuwaniu pojęcia 
z bazy usunięte zostaną również odpowiednie relacje. 

Do tworzenia nowych konceptów służy również okno edytora, uruchamiane 
w odpowiedni sposób z poziomu przeglądarki. Domyślnie nazwą (unikalnym 
identyfikatorem w bazie) nowotworzonego konceptu jest etykieta preferowana 
konceptu. Użytkownik może jednak zmienić ID według swego uznania. Okno 
graficzne edytora przedstawiono na rys.[3.4] 


2000 Tezaurus 


Plik Pomoc 


Znajdz słowo 


| robot | — 
regulacja = y =) g Defi 

robot @ pojecia wezsze 3 |. @ Definicja 
omaa @ pojęcia szersze 1 *| @ Skumulowane 
ruc 

Sensor @ pojęcia skojarzone |1 » |= 
sieć neuranowa. z — - 
Synonimy Definicja 

robot; "Wszystko jest robotem" (prof. dr hab. inż. Krzysztof Tchoń) 

Powiązane Synonimy powiązanych 


autonomia;komunikacja;interfejs;manipulacja;chwytanie;manipulator;  przesunieciezmodel;opis formalny;element pomiarowy;sensor; 
translacja;opis matematyczny;dynamika;kinematyka;kinematyka 
odwrotna;percepcja;urzadzenie pomiarowe;czujnik;ruch; 


Skumulowane 


robot;autonomia;komunikacja;interfejs;manipulacja;chwytanie;manipulator;translacja;opis matematyczny;dynamika;kinematyka;kinematyka 
odwrotna;percepcja;urzadzenie pomiarowe;czujnik;ruch;przesuniecie;model;opis formalny;element pomiarowy;sensor; 


Rys. 3.3: Okno przegladarki. 


3.4.3. Podsumowanie 


Zadaniem opisywanej aplikacji jest ułatwienie budowania tezaurusa zgodnie 
ze standardem SKOS. Aplikacja pozwala więc użytkownikowi na: odczytanie ist- 
niejącego tezaurusa (czyli bazy powiązanych słów z pliku), jego przeglądanie, 
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9 Edytor pojęć 


termin preferowany: [percepcja | phy) 
terminy alternatywne: terminy ukryte: definicja pojecia: 
postrzeganie |): DODAJ organizacja i interpretacja wrażen zmysłowych 


@ domyślne Url 
Pojęcie szersze Pojęcia węższe Pojęcia skojarzone 


| dodaj _ || usuń _ dodaj | usuń j| dodaj |, usuń | 

o e) 

: — — z 
Rys. 3.4: Okno edytora. 


modyfikację oraz zapisywanie zmian. Podczas implementacji aplikacji główny 
nacisk położono na dbałość o spójność tworzonego modelu. Dzięki bieżącemu 
sprawdzaniu poprawności wprowadzanych danych niwelowane są błędy, które 
może popełnić osoba budująca tezaurus. 

Problemy z przeglądaniem i wyszukiwaniem konceptów powiązanych zostały 
rozwiązane dzięki ograniczeniu głębokości przeszukiwania, zapisanym przez 
użytkownikaw odpowiednim parametrze (jego wartość to maksymalna liczba 
przeglądanych węzłów w głąb). Ten prosty zabieg zapobiega problemom z cy- 
klami w grafie, jednocześnie nie ograniczając funkcjonalności aplikacji. 

Funkcjonalnym ograniczeniem stworzonej aplikacji jest brak obsługi modeli 
tezaurusów zapisanych w formacie Turtle, choć warto zauważyć, że istnieją ogól- 
nie dostępne aplikacje służące do tłumaczenia poszczególnych formatów seriali- 
zacji RDE 
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ROZDZIAŁ 


SEMANTYCZNE ADNOTACJE DOKUMENTÓW 
R.Wojtyna, Ł.Walukiewicz 


4.1. Wstęp 


Rozwój technologii informatycznych wymusza wymianę informacji pomiędzy 
oprogramowaniem oraz urządzeniami różnych typów. Problemem nie jest jedy- 
nie to, że urządzenia ze względu na swoją odmienność nie „mówią tym samym 
językiem”. W wielu wypadkach są one także zmuszone korzystać z danych stwo- 
rzonych jedynie przez człowieka dla drugiego człowieka. Łatwo sięgnąć po ogól- 
nie znane przykłady, jak choćby wyszukiwarki internetowe, które zmuszane są 
do rozumienia zawartości stron WWW. Ich efektywność zależy od tego, w jakim 
stopniu potrafią to robić. Najpopularniejsze portale, jak Google czy Yahoo, od 
niedawna radzą sobie z tym problemem poprzez obsługe dwóch potężnych stan- 
dardów: RDFa i Microformats. Standardy te służą semantycznemu adnotowa- 
niu dokumentów XHTML. Adnotacje te wykorzystują istniejące już treści w do- 
kumencie, dzięki czemu dokumenty nie rozrastają się objętościowo i nie ma ko- 
nieczności duplikowania informacji. 

Ideą tworzenia standardów typu RDFa lub Microformats jest próba stworze- 
nia namiastki sieci semantycznej, co w konsekwencji ma pokazać, w jakim kie- 
runku powinni kierować się twórcy stron internetowych w przyszłości, aby sieć 
internet odzwierciedlała sieć semantyczną. Sieć semantyczna w założeniu ma 
posiadać budowę warstwową, składającą się z następujących elementów: Uni- 
code, URI, XML, RDF i Microformats, OWL, mechanizmy wnioskowania, mecha- 
nizmy certyfikacji i zaufania. 

Warstwa pierwsza, najnizsza - Unicode pozwala na wyrazenie w jezyku ma- 
szyn dowolnego znaku pisanego i dowolnego jezyka. Dzieki czemu zostanie wy- 
eliminowany problem z różnymi czcionkami i alfabetami. Kolejna warsttwa URI 
ma zapewniać jednoznaczność pojęć - jest to identyfikator danego pojęcia, który 
informuje maszynę (w przypadku natknięcia się na URI w kodzie) o czym jest 
dany tekst, poprzez możliwe odwołanie do słownika pojęć. Następnie jest stan- 
dard XML, pozwalający na strukturyzowanie danych. Kolejną wartstwą są seman- 
tyczne adnotacje, które zostaną opisane w poniższych podrozdziałach. Dalej jest 
OWL, który pozwala na formalne definiowanie ontologii. Kolejne dwie warstwy to 


4.2, RDFiRDFa 


mechanizmy wnioskowania (na razie działają mato efektywanie) i mechanizmy 
certyfikacji i zaufania. Ta ostatnia warstwa, która praktycznie jeszcze nie istnieje, 
pozwalałaby na zestandaryzowanie i rozwiązanie problemów autoryzacji użyt- 
kowników, identyfikacji ich zasobów, a także określenia praw, na jakich te zasoby 
są przesyłane i mogą być udostępniane. 


4.2. RDFiRDFa 


Koncepcja RDFa oparta jest na funkcjonującym standardzie RDE Poniżej ze- 
brano podstawowe informacje na temat obu tych standardów. 


4.2.1. RDF 


RDF (ang. The Resource Description Framework) jest modelem i językiem słu- 
żącym do reprezentacji zasobów dostępnych w sieci Internet. Został on po części 
zaprojektowany do reprezentacji opisu zasobów za pomocą metadanych, w któ- 
rych zawarte są informacje o ich autorze, licencjonowaniu, czasem modyfikacji 
itp. Można go jednak użyć właściwie do opisu wszystkiego, z czym możemy spo- 
tkać sie w Internecie. Opis ten umożliwia maszynom (a więc oprogramowaniu) 
przetwarzanie danych, które oryginalnie były zrozumiałe jedynie dla człowieka. 

Idea RDF oparta jest na używaniu sieciowych znaczników URI (ang. Uniform 
Resource Identifiers) oraz opisywaniu rzeczy poprzez właściwości i ich wartości. 
Przykładowym zdaniem na temat strony www może być: 


http://www.example.orgfindex.html ma twórcę, którym jest John Smith 
W zdaniu tym wyróżnić można trzy elementy: 


rzecz, którą to zdanie opisuje (identyfikowaną przez adres sieciowy), 
e właściwość tej rzeczy (ma stwórce), 
e wartość tej właściwości (John Smith). 


Dla RDF te trzy elementy określane są, odpowiednio, jako temat (ang. subject), 
predykat (ang. predicate) i obiekt (ang. object). Obiekty w RDF mogą być okre- 
ślane poprzez stałe (np. John Smith) zwane literałami albo poprzez obiekty typu 
URlref (ang. URI reference), takie jak np. adresy www. Zestawy trójek postaci 
<temat, predykat, obiekt> tworzą graf. 

Aby zapisać w RDF następujące twierdzenia: 


ly 


ttp://www.example.org/index.html 

has a creator whose value is John Smith. 
ttp://www.example.org/index.html 

has a creation-date whose value is August 16, 1999. 
http://www.example.org/index.html 
has a language whose value is English. 


> 


należy sprowadzić je do poniższej postaci (fragmentu grafu RDF) wykorzystu- 
jąc zdefiniowane wcześniej i oznaczone identyfikatorami URI pojęcia: creator, 
creation-date, language. 
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<http://www.example.org/index.html> 
<http://purl.org/dc/elements/1.1/creator> 
<http://www.example.org/staffid/85740>. 


rg/index.html> 
rg/terms/creation-date> 


<http://www.example. 
<http://www.example. 
August 16, 1999. 


O 


© 


<http://www.example.org/index.html> 
<http://purl.org/dc/elements/1.1/language> 
en . 


Zapis trójek byłby znacznie krótszy, gdyby dało się zrezygnować z pisania peł- 
nych adresów URI. Jest to możliwe poprzez tworzenie prefiksów. Prefiksy repre- 
zentują przestrzenie nazw, dzięki czemu można je wykorzystać do skracania ad- 
resów. Koncepcja ta wywodzi sie od XMLowego qualified name (QName). Jeśli 
więc prefiksowi foo przypisana będzie przestrzeń nazw http: //example.org/| 
wtedy wyrażenie typu foo:bar będzie skrótem dla dłuższego URI- 


refhttp://example.org/somewhere/bar, W tab.[4.1]zamieszczono zestawienie 


kilku „dobrze znanych” przestrzeni nazw i ich prefiksów. Definiujac dodatkowo 


Tab. 4.1: Zestawienie popularnych przestrzeni nazw i ich prefiksów 


prefiks | URI przestrzeni nazw 
rdf: 
rdfs: 
dc: ttp://purl.org/dc/elements/1.1/ 
owl: http://www.w3.org/2002/07/owlt 
ex 
xsd http://www.w3.org/2001/XMLSchemat 


prefiksy jak w tab.|4.2|trójki z powyższczego przykładu można zapisać następu- 


Tab. 4.2: Zestawienie własnych przestrzeni nazw i ich prefiksów 


prefiks | URI przestrzeni nazw 


exterms: | http: //www.example.org/terms/ 
exstaff: | http://www.example.org/staffid/ 


ex2: ttp://www.domain2.example.org/ 


jąco: 
ex:index.html dc:creator exstaff:85740 . 
ex:index.html exterms:creation-date "August 16, 1999" 
ex:index.html dc:language "en" 
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Jest to zdecydowanie bardziej wygodna i krótka forma niż ta, która została użyta 
na początku. 


4.2.2. Bliżej o RDFa 


RDFa (ang. RDFin attributes) jest sposobem na zamieszczanie w znacznikach 
dokumentu XHTML twierdzenia w języku RDE Aby tego dokonać RDFa używa 
atrybutów obecnych w języku XHTML, ale również dostarcza kilku własnych. Ty- 
powe atrybuty dla XHTML nie zmieniają znaczenia, jednak może ulegać zmianie 
część ich składni. Wykorzystywanymi atrybutami są: 


e @rel Lista CURIE (compact URI) oddzielonych spacją. Służy do wyrażania re- 
lacji pomiędzy zasobami (predykatami w terminologii RDF). 

Q rev Lista CURIE oddzielonych spacją. Określa odwrotną relację pomiędzy za- 
sobami (także predykatami). 

@content Zawiera zawartość czytelną dla maszyny (literal). 

@href URI dla wyrażenia zasobu partnerskiego relacji. 

@src URI dla wyrażenia zasobu partnerskiego relacji, gdy ten zasób jest osa- 
dzony. 


Natomiast nowe atrybuty, charakterystyczne dla RDFa, to: 


@about URI lub SafeCURIE (ang. safe compact URI) używane do określenia, 
o czym jest zasób (subject w terminologii RDF). Może nim być cała strona, jed- 
nak niekoniecznie. Przeważnie jest to jej część. Jeśli istnieje atrybut @about, 
wszystkie zagnieżdzone w nim atrybuty sa do niego odnoszone. Jeśli about 
nie istnieje, wszystkie atrybuty są odnoszone do aktualnej strony. Przy użyciu 
tego argumentu można określać wlaściwości i relacje dla dowolnych elemen- 
tów dokumentu. 

@property lista CURIE oddzielona spacją używana do określenia relacji między 
tematem i tekstem (predicate). Jeśli nie występuje wraz z artybutem @content, 
wtedy wartość będzie pobierana jako tekst elementu, np.: 


Author: <em property="dc:creator">Mark Birbeck</em> 


Nastąpi automatyczne wskazanie na wartość Marka Birbeck jako nazwę au- 
tora. Jeśli w tym samym miejscu zostanie użyty atrybut (content, jego wartość 
będzie ważniejsza. 


<img src="imgl.png" property="dc:created" content="2009-03-22"/> 


W takim wypadku nie ma innej możliwości i data przekazana jest poprzez atry- 
but @content. 

@resource URI lub SafeCURIE używane do określenia partnera w relacji, któ- 
rego nie można kliknąć (obiekt). 

datatype CURIE reprezentujacy typ danych dla wyrażenia typu danych lite- 
rału. 

@typeof CURIE oddzielone spacjami, określające typ danych do powiązania 
z tematem. 
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Terminologia RDFa 


Twierdzenia (ang. statements) to znormalizowane jednostki informacji, stwo- 
rzone w określonym formacie pozwalającym na ich łatwe przetwarzanie. Dla 
przykładu typowy fragment informacji: 


Albert was born on March 14, 1879, in Germany. 
There is a picture of him at the web address: 
http://en.wikipedia.org/wiki/Image:Albert_Einstein_Head. jpg. 


można przetworzyć na zestaw faktów: 


Albert was born on March 14, 1879. 
Albert was born in Germany. 

Albert has a picture at 
http://en.wikipedia.org/wiki/Image:Albert_Einstein_Head. jpg. 


Trójki <temat, predykat, obiekt> pozostają niezmienionym pojęciem. 
Temat określa, o czym są twierdzenia. W powyższym przykładzie tematem 
wszystkich twierdzeń jest Albert. Predykat mówi o opisywanej właściwości. W 
przykładach predykatami są: miejsce urodzenia (was born in), czas urodzenia 
(was born on) i zdjęcie. Natomiast obiekt to wartość właściwości, czyli "March 
14, 1879", "Germany" iadres http. 

Referencje URI mogą być wykorzystywane w twierdzeniach, o czym wspo- 
mniano podczas charakterystyki RDE Natomiast jeszcze nic nie powiedziano 
o sposobie ich wykorzystania. Odwołując się do przykładu opisującego Alberta 
można zauważyć, że w zasadzie twierdzenia zostały sformułowane tak, aby czy- 
tający je człowiek domyślił się, że Albertem jest Albert Einstein. Maszyna (czy też 
program) nie może jednak wysuwać takich domysłów. Dodatkowo nie ma prawa 
wiedzieć, że predykat "was born in" jest równoważny z "birthplace", który 
mógłby istnieć w innej przestrzeni nazw. Ten właśnie problem rozwiązywany jest 
poprzez użycie URIref. 

Aby jasno wskazać na Einsteina można skorzystać z zasobów dbpedia.org 
udostępniających dane RDF Wikipedii. Można też przy okazji jasno sprecyzować 
kraj, w którym się urodził. 


<http://dbpedia.org/resource/Albert_Einstein> 
has the name 
"Albert Einstein". 
<http://dbpedia.org/resource/Albert_Einstein> 
was born on 
"March 14, 1879". 
<http://dbpedia.org/resource/Albert_Einstein> 
was born in 
<http://dbpedia.org/resource/Germany>. 
<http://dbpedia.org/resource/Albert_Einstein> 
has a picture at 
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<http://en.wikipedia.org/wiki/Image:Albert_Finstein_Head.jpg>. 


Idąc dalej można wskazać, ze "birthplace", "place of birth", 
"Lieu de naissance" itd. to te same pojęcia: 


<http://dbpedia.org/resource/Albert_Einstein> 
<http://xmlns.com/foaf/0.1/name> 

"Albert Einstein". 
<http://dbpedia.org/resource/Albert_Einstein> 
<http://dbpedia.org/property/dateOfBirth> 
"March 14, 1879". 
<http://dbpedia.org/resource/Albert_Einstein> 
<http://dbpedia.org/property/birthPlace> 
<http://dbpedia.org/resource/Germany>. 
<http://dbpedia.org/resource/Albert_Einstein> 
<http://xmlns.com/foaf/0.1/depiction> 
<http://en.wikipedia.org/wiki/Image:Albert_Einstein_Head. jpg>. 


Gładkim literałem (ang. plain literal) jest zwykłym ciągiem znaków bez in- 
formacji o typie ani języku. W poniższym przykładzie takim literałem jest 
"Albert Einstein". 


<http://dbpedia.org/resource/Albert_Einstein> 
<http://xmlns.com/foaf/0.1/name> 
"Albert Einstein". 


Typowane literały (ang. typed literals) posiadają URI definiujący ich typ. Zwykle 
typy te pochodzą z XML Schema Datatypes. 


<http://dbpedia.org/resource/Albert_Einstein> 
<http://dbpedia.org/property/date0fBirth> 
"1879-03-14"**<http: //www.w3.org/2001/XMLSchema#date>. 


4.2.3. Zapis grafów RDF 


Grafy RDF można zapisywać w różny sposób. Normatywnym formatem jest 
RDF/XML, ale obok niego funkcjonują inne formaty, jak np. N-Triples czy Turtle. 


Notacja Turtle jest bardzo wygodnym, czytelnym dla człowieka sposobem zapisu 
grafów RDE W notacji tej wykorzystuje się przestrzenie nazw i prefiksy RDĘ co 
pozwala skrócić zapis długich ciągów URI. Przykład z Albertem zapisany w nota- 
cji Turtle ma następującą postać: 


@prefix dbp: <http://dbpedia.org/property/> . 

@prefix dbr: <http://dbpedia.org/resource/> . 

@prefix foaf: <http://xmlns.com/foaf/0.1/> . 

(prefix xsd: <http://www.w3.org/2001/XMLSchemat> . 
dbr:Albert_Einstein dbp:dateOfBirth "1879-03-14"**xsd:date . 
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dbr:Albert_Einstein foaf:depiction 
<http://en.wikipedia.org/wiki/Image:Albert_Finstein_Head.jpg> . 


CURIE jest skrótem od ang. Compact URI. Deklaracja takiego „kompaktowego” 
adresu w dokumencie XHTML może wyglądać następujaco: 


<div xmlns:db="http://dbpedia.org/"> 
</div> 

Przestrzenie nazw wykorzystuje się przy zamieszczania atrybutów RDFa w do- 
kumentach XHTML: 


<div xmlns:db="http://dbpedia.org/"> 
<div about="[db:resource/Albert_Einstein]"> 


</div> 
</div> 

Warto wspomnieć, że deklaracje przestrzeni nazw mają swój zakres. Możli- 
wym jest więc użycie tego samego CURIE w dwóch różnych znaczeniach: 


<div xmlns:dbr="http://dbpedia.org/resource/"> 
<div about="[dbr:Albert_Einstein]"> 


</div> 

</div> 

<div xmlns:dbr="http://someotherdb.org/resource/"> 
<div about=" [dbr:Albert Einstein]"> 


</div> 
</div> 
Możliwe zastosowania CURIE i URI w RDFa przedstawiono poniżej. 


e @about i @resource - obsługuje URI i CURIE 

e threfitsrc - obsługuje tylko URI 

e @property, Edatatypeittypeof - obsługuje tylko CURIE 
e @reli@rev - obsługuje XHTML link types i CURIE. 


Przykład opisu semantycznych adnotacji 


W przykładzie poniżej pokazano, jak można zamieszczać semantyczne adno- 
tacje w dokumencie HTML. 


<html xmlns:dc="http://purl.org/dc/terms/"> 

<head> <title>RDFa: Now everyone can have an API</title> </head> 
<body> <h1>RDFa: Now everyone can have an API</h1> 

Author: <em property="dc:creator" content="Mark Birbeck"> 


62 


4.2. RDFiRDFa 


Mark Birbeck</em> 
Created: <em property="dc:created" content="2009-05-09"> 
May 9th, 2009</em> 
License: <a rel="license" 
href="http://creativecommons.org/licenses/by-sa/3.0/"> 
CC Attribution-ShareAlike</a> 


Previous version: <a rel="dc:replaces" href="rdfa.0.8.html"> 
version 0.8</a> 
</body> 
</html> 


Na samym początku przykładu zdefiniowano prefiks dc dla przestrzeni http: //| 
co pozwoliło użyć krótszej formy identyfikatorów. Dalej 
można zauważyć kilka szczególnych właściwości. 

W oryginalnej składni HTML atrybut @content mógł być użyty jedynie 
w znacznikach meta sekcji head. W dokumentach z RDFa może on być użyty dla 
dowolnego elementu. Zrezygnowano z używania @name w dalszych częściach do- 
kumentu. Wprowadzono za to nowy atrybut @property. Podobnie w przypadku 
@rel, thref, które teraz mogą także wskazywać na relacje pomiędzy obrazkiem 
i innymi częściami dokumentu. Ponadto wiele powiązań i relacji można jedno- 
cześnie opisywać dla jednego elementu: 


<img src="imagel.png" rel="license" 
href="http://creativecommons.org/licenses/by-sa/3.0/" 
property="dc:created" content="2009-05-01" /> 


W przykładzie poniżej pokazano użycie atrybutu about dla dowolnego ele- 
mentu dokumentu: 
<a 
about="http://www.slideshare.net/fabien_gandon/rdfa-in-a-nutshell-vl" 
rel="license" href="http://creativecommons.org/licenses/by/2.5/" 
property="dc:creator" content="Fabien Gandon"> 
<img src="http://i.creativecommons.org/1/by/2.5/80x15.png" /> 
</a> 


Zastosowany zapis pozwala w efektywny sposób określić dwie rzeczy. Pierw- 
sza: Prezentacja na slideshare pod określonym adresem ma licencję CC BY oraz 
druga: Prezentacja na slideshare pod określonym adresem została stworzona przez 
Fabiena Gandona. 


Powiązania 


RDFa daje możliwość tworzenia powiązań pomiędzy twierdzeniami. Dzięki 
temu można wykorzystywać istniejące już pojęcia i określenia w dokumencie bez 
konieczności ich kolejnego przepisywania. Sposoby zamieszczania twierdzeń 
w kodzie XHTML zademonstrowano w kolejnym przykładzie. 
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<div about="http://dbpedia.org/resource/Albert_Einstein"> 
<span property="foaf:name">Albert Einstein</span> 
<span property="dbp:dateOfBirth" datatype="xsd:date"> 
1879-03-14</span> 
<div rel="dbp:birthPlace" resource= 
"http: //dbpedia.org/resource/Germany"> 
<span property="dbp:conventionalLongName"> 
Federal Republic of Germany</span> 
</div> 
</div> 


Powyższy zapis oznacza, ze: Albert Einstein urodził się w Niemczech, których dtuz- 
szą nazwą jest "Federal Republic of Germany". 

Możliwe jest również tworzenie zagnieżdżonych powiązań o odwrotnym dzia- 
łaniu niż zaprezentowane. 


<div about="http://dbpedia.org/resource/Albert_Einstein"> 
<div rel="dbp:citizenship" 
resource="http://dbpedia.org/resource/Germany"></div> 
<div rel="dbp:citizenship" 
resource="http://dbpedia.org/resource/United_States"></div> 
</div> 


Powyższy przykład mówi, że Albert posiada jednocześnie niemieckie i amerykań- 
skie obywatelstwo. 

Można także stworzyć niekompletną trójkę, która będzie uzupełniona (dwu- 
krotnie) zagnieżdżanymi informacjami. 


<div about="http://dbpedia.org/resource/Albert_Einstein" 
rel="dbp:citizenship"> 
<span about="http://dbpedia.org/resource/Germany"></span> 
<span about="http://dbpedia.org/resource/United_States"></span> 
</div> 


Efektem powyższego zapisu jest utworzenie trójek: 
<http://dbpedia.org/resource/Albert_Einstein> 
dbp:citizenship <http://dbpedia.org/resource/Germany> . 


<http://dbpedia.org/resource/Albert_Einstein> 
dbp:citizenship <http://dbpedia.org/resource/United_States> . 


Wymagania odnośnie budowy dokumentu 


Poprawnie zredagowany dokument XHTML+RDFa powinien spełniać wyma- 
gania opisane w standardzie. 


¢ Dokument musi posiadać poprawna deklaracje namespace dla URI: 
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<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"> 


e Dokument musi posiadać poprawny atrybut (version z odpowiednim nume- 
rem wersji 


<?xml version="1.0" encoding="UTF-8"?> 
<html xmlns="http://www.w3.org/1999/xhtml" 
version="XHTML+RDFa 1.0" xml:lang="en"> 
<head> <title>Virtual Library</title> </head> 
<body> 
<p>Moved to <a href="http://example.org/">example.org</a>. 
</p> 
</body> 
</html> 


e Dokument musi spełniać wymagania określane definicji typu dokumentów 
XHTML+RDFa zawartej pod adresem: 


http://www.w3.org/TR/rdfa-syntax/ta_xhtmlrdfa_dtd 


4.3. Mikroformat 


4.3.1. Czym są i czym nie jest mikroformaty? 


Mikroformaty są wykorzystywane sę przy tworzeniu stron internetowych. Po- 
zwalają skorzystać ze strukturalnego opisu wiedzy. Wszystko po to, aby doku- 
ment np. w języku HTML, posiadał składnię rozumianą przez maszyny, które 
przetwarzają informacje w nim zawarte. Dokładniej mówiąc, mikroformaty są 
ogólnie przyjętym ustandaryzowanym zestawem elementów (głównie klas CSS 
i elementów języka XHTML) przystosowanych do przetwarzania przez w ma- 
szyny w jednoznaczne i zrozumiały sposób. Innymi słowy, jest to taki zbiór spo- 
sobów stosowania klas CSS i elementów języka XHTML, który pozwala zapisać 
w dokumencie wiedzę w sposób strukturalny i przejrzysta nie tylko dla człowieka, 
ale co najważniejsze, dla maszyny. 

Stosowanie mikroformatów w dokumentach (np. na stronach internetowych) 
wzbogaca ich semantykę kodowania, ułatwia maszynowe przetwarzanie tre- 
ści i umożliwia przenoszenie informacji z dokumentu do aplikacji. Mikrofor- 
maty są rodzajem metadanych. Jak można przeczytać pod adresem: 
Designed for humans first and machines second, 
microformats are a set of simple, open data formats built upon existing and widely 
adopted standards. 

Przez mikroformaty można także rozumieć zestaw zasad projektowania opisu 
wiedzy, dzięki którym wiedza zapisana w dokumencie staje się przejrzysta. Cho- 
dzi przede wszystkim o budowę mikroformatów, jak np. mikroformat hCard prze- 
znaczony do opisywania kontaktów (ludzi, firm, organizacji itd.). Opisując ludzi 
przy użyciu hCard wiadomo, że należy użyć odpowiednich klas do nazwy - fn, 
czy adresu - addr. Przestrzeganie zasad projektowania opisu wiedzy przy użyciu 
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mikroformatu jest bardzo istotne z punktu widzenia aplikacji przetwarzających 
dokument, gdyż jeżeli będzie on zawierał błędy na szczeblu projektowym, to pro- 
gram przetwarzający dane osiągnie słabsze rezultaty. 

Idąc dalej, mikroformaty są obiektami zaadoptowanymi do aktualnych wzor- 
ców i sposobów korzystania. Nowe mikroformaty tworzone są tylko w celu wy- 
korzystania w istniejących już aplikacjach. Korzystanie z mikroformatów w ko- 
dach źródłowych stron prowadzi do utworzenia lower-case semantic web (ma- 
łych sieci semantycznych). Główne ich cechy to: 


+ małe fragmenty łączące sie ze soba, 
e znaczniki semantyczne dodawane sa do istniejących stron 
e wiedza musi być najpierw zrozumiała dla człowieka, a następnie dla maszyny. 


W odpowiedzi na pytanie „Czym są mikroformaty?” można uzyskać także 
odpowiedź, że są one ewolucyjną rewolucją An evolutionaly revolution." [1]. 
W stwierdzeniu tym chodzi przede wszystkim o możliwość stworzenia globalnej 
sieci semantycznej, w której mikroformaty mają zapewnić przejrzystość doku- 
mentów dla człowieka i dla maszyny oraz jednoznaczność interpretacji informa- 
cji zawartej w znacznikach. 

Bardzo ważną cechą tego standardu jest to, iż nie jest on osobnym językiem, 
czy też dodatkiem do jakiegoś języka. Standard ten opisuje zastosowanie klas 
CSS i elementów języka xHTML. Nie potrzeba żadnego dodatkowego kompila- 
tora, dlatego też mikroformaty są praktycznie kompatybilne z wszystkimi istnie- 
jącymi już stronami - nie wymagają żadnych technicznych zmian w istniejącej 
infrastrukturze. 

Mikroformaty nie są także rozszerzalnymi w nieskończoność strukturami. Nie 
opisują one całego świata, dlatego też nie narzucają nikomu swoich narzędzi słu- 
żących do opisu informacji. Z założenia mikroformaty nie są także podejściem 
do opisu wiedzy, który odrzucałby całkowicie wszystko, co było przed nimi. Jest 
jasno powiedziane, że wiedza nie posiadająca żadnej semantyki może być wzbo- 
gacona o znaczniki mikroformatu. 


4.3.2. Charakterystyka i budowa Mikroformatów 


Główne założenia 


Główym założeniami przyjętymi przy tworzeniu mikroformatów były: 


e Prosty, powtarzalny format, gdyż ma on być łatwy do nauki i użytkowania. 

¢ Tworzenie mikroformatów do funkcjonowania w istniejących aplikacjach. 

e Możliwość implementacji w językach skryptowych takich, jak PHP, Python 
i Perl. 

e Użytkowanie mikroformatów przez webmasterów, ponieważ tylko wtedy bę- 
dzie on rozpowszechniany. 


Mikroformaty spełniające te założenia to: 
+ RSS - używany w przesyłaniu nagłówków informacji, 


e xfn - do określania relacji międzyludzkich 
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* GeoURL - używany do lokalizacji 

e hCalendar - pozwala na określanie dat wydarzeń 

* hCard - służy do tworzenia książki adresowej 

e XOXO - związany z tworzeniem zarysów i subskrypcji 

e Attention.XML - pozwala opisywać najczęściej odwiedzane strony. 


Charakterystyka 


Mikroformaty można stosować w takich technologiach, jak: HTML, XHTML, 
XML, RSS, ATOM. Mikroformaty występują w następujących atrybutach: class, 
rel, rev. 

Często stosuje się (SPAN) i (DIV) do zaznaczenia fragmentów, które dotyczą 
danej informacji. Aktualnie istnieje mniej niż 20 przyjętych i używanych mikro- 
formatów. Najpopularniejsze w użyciu są hCard i hCalendar. Są zgodne z zapi- 
sem formatów odpowiednio vCard i vCalendar w xHTML-u, umożliwiając jedno- 
cześnie zapis jednego formatu w drugim (zagnieżdżenie). Oba powyższe formaty 
używane są często przez zewnętrzne programy do synchronizacji informacji. 

Inne ważne mikroformaty to rel-nofollow, rel-license i rel-tag - polegają na 
określeniu atrybutu rel. Pierwszy z nich określa, że roboty przeszukujące daną 
stronę nie powinnny podążać za danym linikiem. Kolejny informuje na jakich 
zasadach została opublikowana treść strony. Natomiast ostatni mówi, że dany 
link jest odnośnikiem do podstrony ze słowem kluczowym. 

Oprócz powyższych standardów występują też takie, których zastosowanie 
jest ukierunkowane wyłącznie na dany typ strony, np. VoteLinks - strony z son- 
dami lub XFN (ang. HTML Friends Network) - do sieci społecznościowych lub blo- 
gów, aby opisać zależności ze stronami innych internautów. 


4.3.3. Różnica pomiędzy HTML, a HTML z mikroformatami 


Różnicę pomiędzy zwykłymi plikami HTML, a plikami HTML wzbogaconymi 
o mikroformaty najlepiej omówić jest na przykładie 


<div> 
<img src="www.photo.pl/robertkowalski" /> 
<strong>Robert Kowalski</strong> 
Inzyniet konstruktor firmy Urzadzenia AGD 
ul. techniczna 154 
Raciborz, woj. slaskie, 12-345 

</div> 


Powyżej znajduje się kod dotyczący osoby napisany w zwykłym języku HTML, bez 
użycia metadanych. 


<div class="vcard"> 
<img class="photo" src="www.photo.pl/robertkowalski" /> 
<strong class="fn">Robert Kowalski</strong> 
<span class="title">Inzynier konstruktor</span> firmy 
<span class="org">urzadzenia AGD</span> 
<span class="adr"> 


67 


4. Semantyczne adnotacje dokumentów 


<span class="street-address">ul. techniczna 154</span> 
<span class="locality">Raciborz</span>, 
<span class="region">woj. slaskie</span>, 
<span class="postal-code">12-345</span> 
</span> 
</div> 


Powyższy kod dotyczy tych samych informacji, co poprzedni z tym, że do opisu 
znaczeniowego użyto mikroformatów. 
W interpretacji powyższych przykładów pomocne są następujące wyjaśnie- 

nia: 

e Całość została objęta w mikroformat hCard, który w języku HTML zapisywany 
jest jako vcard. 

e Właściwości jakie zostały przypisane do mikroformatu hCard to: class=photo 
- zdjęcie, class=fn - nazwa, class=title - stanowisko, class=adr - adres. 

e Właściwość class=adr posiada trzy właściwości podrzędne: 
class=street-address - ulica, class=locality, class=postal-code - 
kod pocztowy. 


Plikiem HTML z użyciem mikroformatów jest bardzo dokładnie opisany przez 
metadane, dzięki czemu roboty odwiedzające strony z takim kodem w znacznie 
łatwiejszy sposób mogą dokonywać przetwarzania zawartej na niej wiedzy. 


4.3.4. Przykłady 


Poniżej znajduje się wyjaśnienie, w jaki sposób należy interpretować kod ko- 
rzystający z hCard. 


<div class="vcard"> 
<span class="fn n"> 
<a class="url" href="http://kowalski.pl"> 
<span class="given-name">Jan</span> 
<span class="family-name">Kowalski</span> 
</a> 
</span> 
<span class="nickname">kowal</span> 
<a class="email" href="mailto:kowal@kowal.net"> 
<span class="type">pref</span><span>erred email</span> 
</a> 
<span class="org">Firma</span> 
<span class="adr"> 
<abbr class="type" title="dom">Polska</abbr> 
<span class="type">dom</span> address 
<abbr class="type" title="postal">mail</abbr> and 


<abbr class="type" title="parcel">shipments</abbr>: 
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<span class="street-address">12 Mickiewicza</span> 
<span class="locality">Kalisz</span> 
<span class="postal-code">52-509</span> 
<span class="country-name">Polska</span> 
</span> 
<span class="geo"> 
<abbr class="latitude" title="52.816607">N 52 81.6607</abbr> 
<abbr class="longitude" title="12.365667">E 12 36.5667</abbr> 
</span> 
</div> 


e W pierwszymi wierszu występuje atrybut class=vcard. Oznacza on, że cały 
blok informacji będzie dotyczył kontaku. Mikroformat hCard w kodzie HTML 
jest oznaczony jako obiekt vcard. 

e Blok kontakt zawiera takie właściwości jak: 


— atrybut class=fn n - nazwa składająca się z kilku elementów, posiada wła- 
ściwości podrzędne, jak imię i nazwisko kontaktu, oraz adres jego strony in- 
ternetowej. 

— atrybut class=nickname - pseudonim, posiada właściwość adresu poczty in- 
ternetowej. 

— atrybut class=Org - organizacja z której wywodzi się dany kontakt 

— atrybut class=adr - adres danego kontaktu, posiada najwiecej właściwości 
podrzędnych: class=street-address - ulica, class=locality - miejsco- 
wość, class=postal-code - kod pocztowy i class=country-name - kraj. 

— atrybut class=geo - określenie lokalizacji danego kontaktu. 


Poniżej znajduje się wyjaśnienie, w jaki sposób należy interpretować kod ko- 
rzystający z hCalendar. 


<div class="vevent"> 
<h5 class="summary"> 
Mecz pilkarski FC Barcelona - Real Madryt. </h5> 
<div>Posted on: <abbr class="dtstamp" title="19970901T1300Z"> 
September 1, 1997</abbr></div> 
<div class="uid">20101129T2030002-123402 @host.com</div> 
<div>Dates: 
<abbr class="dtstart" title="20101129T203000Z"> 
November 29, 2010, 20:30 UTC </abbr>- 
<abbr class="dtend" title="20101129T203000Z"> 
November 29, 2010, 22:30 UTC</abbr> 
</div> 
</div> 


e W pierwszym wierszu znajduje się atrybut class=vevent, który oznacza, ze 
cały blok informacji będzie dotyczył wydarzenia. 
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e W drugim wierszy znajduje się atrybut class=summary po którym występuje 
temat określający opisywane wydarzenie. Kolejną właściwością znajdująca się 
w bloku opisywanego wydarzenia jest czas rozpoczęcia class=dtstart i za- 
kończenia class=dtend wydarzenia. 

Poniżej znajduje się wyjaśnienie, w jaki sposób należy interpretować kod ko- 
rzystający z hReviewer 


<div class="hreview"> 
<span class="item"> 
<strong class="item">Opinia na temat trenera 
<span class="fn">Dotychczasowa praca trenera</span> 
</strong> 
</span> 
<span class="reviewer vcard"> 
Autor: <span class="fn">Jan Kowalski</span>, 
<span class="title">programista</span>serwisu 
<span class="org">Firma</span> 
</span> 
Ocena: <span class="rating">4.5</span> na 5 
<span class="description"> 
Uwazam, ze trener prowadzi druzyne 
w dobrym kierunku i w przyszlosci pojawia sie sukcesy. 
</span> 
</div> 


e W pierwszym wierszu powyższego kodu jest atrybut class=hreview, który 
oznacza, że tekst zawarty w całym bloku dotyczy opinii. 

* W celu określenia autora opinii można użyć atrybutu class=reviewer. 
W powyższym przykładzie w celu określenia dodatkowych informacji użyto 
dwóch poleceń pisanych w jednym wierszu i oddzielonych znakiem spacji - 
class=reviewer vcard. 

e Atrybuty w bloku reviewer vcard opisują imię i nazwisko autora opinii - fn, 
tytuł autora opinii - title oraz firmę zatrudniającą go - org. 

e Atrybuty w bloku hreview dotyczą najpierw nazwy opinii - atrybut class=fn, 
a następnie oceny przyznanej danemu tematowi. Na samym końcu pojawia się 
właściwość dotycząca opisu (komentarz) oceniającego na temat ocenianego 
obiektu - class=description. 


4.4. Praktyczne wykorzystanie adnotacji semantycznych 


W celu przetestowania możliwości stosowania adnotacji semantycznych zbu- 
dowano prototyp aplikacji internetowej pozwalającej na kontekstowe wyszuki- 
wanie informacji na wskazanych stronach internetowych. Poniżej opisano przy- 
jęte założenia oraz sposób jej implementacji. 
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4.4, Praktyczne wykorzystanie adnotacji semantycznych 
4.4.1. Założenia 


Bardzo ważnym etapem w cyklu projektowania aplikacji jest wydzielenie wy- 
magań funkcjonalnych i niefunkcjonalnych. Jest to niezbędny element każdego 
projektu, bez którego trudno określić założony cel. Dla aplikacji, która miała po- 
służyć jako ilustracja sposobu wykorzystania semantycznych adnotacji w prak- 
tyce zdefiniowano następujące wymagania funkcjonalne: 


e użytkownik musi mieć narzędzie do wyszukiwania semantycznego, 

e użytkownik musi mieć możliwość wybrania strony internetowej, na której zo- 
stanie przeprowadzone wyszukiwanie semantyczne, 

e użytkownik musi mieć możliwość wpisania terminu, który będzie wyszuki- 
wany, 

e użytkownik powinien móc wprowadzić głębokość przeszukiwania (ilość pod- 
stron), 

e wyniki powinny być wizualizowane w sposób graficzny, 

e interakcja pomiędzy aplikacją a użytkownikiem powinna zachodzić z wykorzy- 
staniem Internetu. 


Pierwszy funkcjonalny wymóg projektu informuje projektantów, że efektem 
finalnym powinna być wyszukiwarka semantyczna, czyli taka, która nie szuka 
ilości (statystyki) wystąpienia słowa kluczowego na danej stronie, tylko korzysta- 
jąc z ontologii (bazy wiedzy) dokonuje porównania pomiędzy nią, a zawartością 
strony. Skłania to odrazu do wniosku, że wyniki wyszukiwania semantycznego 
w dużym stopniu zależą od metadanych zawartych na stronach, które tworzy się 
używając znaczników opisane w rozdziałach |4.2]i[4.3] Jest to także jeden z celów 
nadrzędnych projektu - uwidocznienie różnic w wyszukiwaniu semantycznym 
i statystycznym, a przede wszystkim zwrócenie uwagi na jakość wyszukiwania, 
która przecież jest najważniejsza. 

Oczywiście celem projektu nie jest stworzenie narzędzia do przeszukiwania 
całego internetu, bądź tworzenie baz danych i indeksowanie wszystkich stron 
podobnie do znanych wyszukiwarek internetowych Google czy Yahoo. Wspo- 
mniane wyszukiwarki wypuszczają w internet swoje „robaki”, które „przegry- 
zają się” przez strony, indeksując je w swoich bazach danych, co w dużej mierze 
ułatwia wyszukiwanie statystyczne (zarówno Google jak i Yahoo wyposażone są 
w silniki wyszukiwania kontekstowego). Tak więc w realizowanym zadaniu prze- 
szukiwanie całego internetu nie miałoby sensu. 

Możliwość przeglądania strony wskazanej przez użytkownika pojawiło się 
więc jako drugi wymóg funkcjonalny. Użytkownik powinien wpisać ręcznie adres 
strony startowej, od której zacząć się ma wyszukiwanie. W przypadku niewskaza- 
nia adresu strony startowej, aplikacja powinna wyświetlić stronę domyślną, wy- 
świetlając przy tym komunikat, iż nie została podana żadna strona startowa (bez 
podania jej adresu wyszukiwanie nie rozpocznie się). Podobna sytuacja powinna 
zdarzyć się zużyciem jakiegoś terminu jako parametru wyszukiwania. W sytuacji, 
gdy użytkownik nie określi terminu, wyszukiwanie powinno zostać uruchomione 
z parametrem domyślnym lub powinien zostać wyświetlony komunikat o braku 
parametru wyszukiwania i użytkownik powinien zostać poproszony o jego wpi- 
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sanie. Intuicyjnie wydaje się, iż powinna być także opcja wpisania dwóch lub też 
więcej parametrów wyszukiwania (słów kluczowych), które powinny być trakto- 
wane jako całość. 

Głębokość przeszukiwania jest ważnym parametrem, który określa jak daleko 
aplikacja ma „zakopać się” w linki znalezione na stronie bazowej i w podstro- 
nach strony bazowej. Wartość tego parametru powinien określać użytkownik 
na podobnej zasadzie co dwa poprzednie parametry. Czyli w przypadku braku 
wprowadzenia jakiejkolwiek wartość (głębokości przegladania) powinna zostać 
ustawiona wartość domyślna lub powinien zostać zwrócony komunikat o błędzie 
i prośba o wprowadzenie takiej wartości. 

Kolejnym istotnym wymaganiem jest zwracania rezultatów w sformatowany 
sposób - najlepiej, gdyby zostały one wyświetlone w jakiejś graficznej repzrezen- 
tacji, aby były czytelne. Może to być graficzne drzewo z gałęziami reprezentu- 
jącymi znalezione dopasowanie (jedna gałąź - jedno dopasowanie) w taki spo- 
sób, że im lepsze dopasowanie, tym dłuższa gałąź. Ewentualnie można wyszu- 
kane dopasowania wyświetlać w sposób procentowy (procentowe dopasowanie 
do wzorca z ontologii). 

Ostatnim wymaganiem jest niejako podsumowanie wszystkich powyższych, 
czyli interakcyjność aplikacji. Aplikacja musi zawierać zgrabny interfejs graficzny 
pomiędzy użytkownikiem, a silnikiem wyszukiwarki, pozwalający na swobodną 
i łatwą komunikację pomiędzy obydwoma podmiotami. 

Wymagania niefunkcjonalne dla testowej aplikacji można zdefiniować jak na- 
stępuje: 


e aplikacja webowa powinna być zaimplementowana jako dynamiczna strona 
internetowa, 

e do semantycznego wyszukiwania powinny być wykorzystane bazy wiedzy (on- 
tologie). 

e rozwiązanie powinno mieć architekturę warstwowa, 

wdrożenie powinno odbyć się na serwerze HTTP. 


Stworzenie aplikacji webowej wydaje się optymalną formą realizacji posta- 
wionych założeń. Dzięki niej łączenie się z przeszukiwaną stroną, pobierania 
kodu źródłowego tej strony itp. nie powinno sprawiać problemów. Co więcej, im- 
plementując aplikację w języku skryptowym jak Perl lub PHP uzyskuje się rozwią- 
zanie, które nie wymaga kompilacji (niweluje problem z przenośnością oprogra- 
mowania) i jest ogólnie dostępne dla każdego użytkownika (dzięki umieszczeniu 
strony w internecie). Wymienione języki posiadają mocne wsparcie pod posta- 
cią bibliotek obsługi połączeń sieciowych oraz parsowania tekstu, co w odgrywa 
kluczową rolę w szybkim stworzeniu prototypowej aplikacji. 

Implementując aplikację webową należy również pochylić się nad proble- 
mem wykorzystania istniejącej lub stworzeniem nowej ontologii, czyli stworzenia 
bazy wiedzy, na podstawie której zostanie dokonane kontekstowe przeszukanie 
wybranej przez użytkownika strony internetowej. Ontologia dostarcza wzorców, 
które aplikacja powinna odnaleźć w kodzie parsowanej strony. 
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Uzytkownik 


Dane: 
- termin Rezultaty 
- strona bazowa 
- głębokość Pobieranie kodu 
strony Strona bazowa 
+ 
Połączenie podstrony 
Dane: 
- termin - znaczniki meta 


do wyszukania 


Ontologia 


Rys. 4.1: Zarys architektury aplikacji. 


Na rys.[4.1]przedstawiono zarys architektury budowanej aplikacji. Uzytkow- 
nik poprzez warstwe dostepowa (najwyzsza) uruchamia caty projekt, wprowadza 
dane i otrzymuje rezultaty. Dane od użytkownika przekazywane są do aplikacji, 
która uruchamia warstwę najniższą - ontologię i odwołuje się do niej poszuku- 
jąc tam terminu wpisanego przez użytkownika. Następnie, jeżeli w bazie wiedzy 
zostanie odnaleziony dany termin, to meta znaczniki odwołujące się do niego zo- 
stają przesłane do warstwy wyższej - aplikacji. Istnieje jeszcze warstwa poboczna, 
z której aplikacja pobiera kod do przeszukania pod kątem wcześniej wspomnia- 
nych meta znaczników. Jeżeli przeszukiwanie zakończy się pozytywnie, to na 
stronie internetowej (w warstwie dostępowej aplikacji) zostaną wyświetlone re- 
zultaty. 

Aplikacja webowa powinna działać w środowisku serwera HTTP, którym może 
być Apache. Ważne jest, aby serwer obsługiwał skrypty CGI (ang. Common Geta- 
way Interface), gdyż aplikacja będzie miała właśnie postać takiego skryptu. 


4.4.2. Aplikacja 


Do implementacji aplikacji ostatecznie wybrano język Perl. Uzasadniając jego 
wybór należy zwrócić uwagę na to, iż pierwotnie został on stworzony do pracy 
z danymi tekstowymi - posiada ogromne wsparcie w postaci bibliotek do parso- 
wania tekstów. Kolejnym ważnym czynnikiem, który przemawiał za tym językiem 
jest fakt, iż jest on darmowy i dostępny na wiele platform. Do pracy z programami 
napisanymi w tym języku wystarczy jego interpreter, gdyż pliki nie są kompilo- 
wane do postaci binarnej. W celu spełnienia założeń funkcjonalnych zbudowano 
dynamiczną stronę internetową, generowaną przez skrypt CGI. 


Opis użytkowania 


Na rys.|4.2|przedstawiono widok interfejsu uzytkownika z zaznaczonymi klu- 
czowymi jego elementami: 
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WWoogl 


RDFa finder 


Rys. 4.2: Widok interfejsu użytkownika. 


Pole z nazwą przeglądarki — nazwa przeglądarki WWoogl powstała jako zle- 
pek pierwszych liter nazwisk jej autorów (Wojtyna i Walukiewicz) oraz przy- 
rostka oogl (nawiązującego do przeglądarki firmy Google, gdyż przeglądarka ta 
wspiera wyszukiwanie semantyczne). 

Pole Podaj adres strony — służy do wpisania adresu strony internetowej, na 
której zostanie przeprowadzone wyszukiwanie kontekstowe. Domyślnie jest 
to strona http: 
[JobId=14224| JobId=14224, która pex a de adnotacjie wg standardu RDFa. 

Pole Podaj zagadnienie — przeznaczone jest do wpisania terminu, który pod- 
dany zostanie wyszukaniu. 

Pole Ilość stron — służy do określenia głębokości przeszukiwania (ilość stron, 
które aplikacja może przeszukać). 

Przycisk Szukaj — służy do uruchomienia algorytmu przeszukiwania seman- 
tycznego. 


Podczas działania aplikacji jej sterowanie przechodzi przez kilka warstw: 


interfejs użytkownika - pobranie danych wejściowych, 

baza wiedzy - przeszukiwanie pod kątem wystąpienia terminu, 

wczytana strona - przeszukiwanie pod kątem wyników znalezionych w bazie 
wiedzy. 


Dokładniej mówiąc, podczas działania aplikacji wykonywane są następujące 
operacje: 


pobranie danych od użytkownika, 

połączenie się ze stroną, która ma zostać przeszukana 

pobranie kodu strony, 

połączenie się z ontologią która zapisana jest 
w pliku po stronie serwera http, 

przeszukanie opisu słów w ontologii pod kątem wystąpienia wpisanego przez 
użytkownika terminu, 

zapamiętanie wszystkich słów (tematów) z ontologii, w których opisach został 
znaleziony uprzednio podany termin, 
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e przeszukanie kodu strony pod kątem słów zapamiętanych z ontologii, 
e wyświetlenie rezultatów na stronie (interfejsie użytkownika). 


Przykładowe rezultaty semantycznego wyszukiwania za pomocą aplikacji 
WWoogl pokazano na rys. Wyszukiwanie odbyło się na stronie domyśl- 
nej http://www.civilservice.gov.uk/jobs/careers-detail.aspx?JobId= 
zaś parametrem wyszukiwania był termin location. Aplikacja zwróciła 
następujące rezultaty: 


e dla terminu location w ontologii wyszukano temat coverage (po polsku - ob- 
szar) 

e temat ten ma właściwość o wartości East of England 

e aplikacja zwróciła także opis tematu coverage zaczerpnięty z ontologii. 


Strona wyszukiwania: http.//www.civilservice.gov.uk/jobs/careers-detail aspx?Jobld=14224 


domena: http//www.civilservice.gov.uk 


Wyszukiwane hasło: location 


znaleziona wlasciwosc: rel | ze slownika: de | wartosc: publisher | znaczenie: Examples of a Publisher include a person, an organization, or a service. | kontekst: 


znaleziona wlasciwosc: rel | ze slownika: de | wartosc: publisher | kontekst: 


znaleziona wlasciwosc: rel | ze słownika: de | wartosc: type | znaczenie: Recommended best practice is to use a controlled vocabulary such as the DCMI Type Vocabulary [DCMITYPE]. To describe the file format. 
physical medium, or dimensions of the resource, use the Format element. | kontekst: 


znaleziona wlasciwosc: rel | ze slownika: de | wartosc: type | kontekst: 


Rys. 4.3: Przyktadowe rezultaty wyszukiwania. 


Zaimplementowana wyszukiwarka po zwróceniu (wypisaniu na stronie) re- 
zultatów dla wyszukiwanego terminu zwraca wszystkie znaczniki RDFa wystę- 
pujące na przeszukiwanej stronie. Procedura wypisania jest zawsze taka sama, 
a mianowicie najpierw wypisywany jest atrybut określający właściwość np. rel, 
następnie określona jest ontologia, temat, jego znaczenie i na końcu, jeżeli wy- 
stępuje to zwrócony zostaje kontekst. 


4.4.3. Podsumowanie 


Stworzona aplikacja jest tylko namiastką wyszukiwarki semantycznej. Poka- 
zuje ona w najprostszy sposób na czym polega wyszukiwanie semantyczne. Ze 
względu na mało zaawansowaną implementację zwracane przez nią rezultaty nie 
są oszałamiające. Mimo wszystko jednak dzięki niej można zorientować się, na 
czym polega wykorzystanie wiedzy zawartej na stronach internetowych, a także 
ukazuje możliwą kategoryzację tej wiedzy. 

W trakcie implementacji i testów aplikacji stwierdzono, że znaczniki RDFa 
obecnie są mało wykorzystywane i dlatego tylko na niektórych stronach wyszu- 
kiwanie semantyczne w oparciu o ten standard ma sens. Zauważono, że baza 
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wiedzy odgrywa taką samą rolę jak stosowanie przez projektantów meta znaczni- 
ków na stronach. Bogata bazy wiedzy zapewnia rzetelne przeanalizowanie ter- 
minów zadanych przez użytkownika oraz skuteczniejsze przeszukiwanie kodu 
strony pod kątem semantycznym. 

Zaimplementowana aplikacja nie wspiera wyszukiwania w oparciu o drugi 
standard opisu wiedzy, tj. Microformats, dlatego nie dokonano porównania za- 
let i wad obu standardów w praktyce. 


Literatura 


[1] An Evolutionary Revolution. http://theryanking.com/entries/2005/04/ 
07/an-evolutionary-revolution/ 
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ROZDZIAL 


ZASTOSOWANIE METODY ANALIZY 
GŁÓWNYCH SKŁADOWYCH W 
ROZPOZNAWANIU I KLASYFIKACJI TWARZY 
D. Dudek, S. Tomaszewski 


5.1. Wstęp 


Identyfikacja osób na podstawie obrazu twarzy od dawna budzi duże zainte- 
resowanie. Jest to najbardziej naturalna i najczęściej stosowana przez ludzi forma 
weryfikacji tożsamości. Począwszy od wczesnych lat 90-tych zagadnienia rozpo- 
znawania twarzy wyraźnie zyskują na popularności. Obecnie — po ponad 30 la- 
tach od pojawienia się pierwszych prac z tej dziedziny — odpowiednio wydajny 
sprzęt komputerowy stał się powszechnie dostępny, jednocześnie pojawiło się 
duże zapotrzebowanie na stosowanie tej technologii w praktyce. 

Konieczność ochrony przed zamachami terrorystycznymi, do których w ostat- 
nim czasie przywiązuje się szczególną wagę, z pewnością przyczyniła się do wzro- 
stu zainteresowania urządzeniami zdolnymi do wykrywania twarzy osób podej- 
rzanych, pojawiających się w miejscach publicznych, takich jak lotniska, dworce, 
stadiony czy stacje metra. Z drugiej strony, atrakcyjność rozpoznawania twarzy 
wynika również z faktu wprowadzenia dodatkowego biometrycznego zabezpie- 
czenia, które nie jest okupione obniżeniem komfortu użytkowania systemu. Cho- 
ciaż inne metody identyfikacji, takie jak analiza odcisków palców czy skanowanie 
źrenicy, są bardziej niezawodne, wymagają one jednak pewnego zaangażowania 
ze strony użytkownika. Systemy identyfikujące ludzi na podstawie obrazów twa- 
rzy często są w stanie działać sprawnie bez udziału, a nawet bez wiedzy, osoby 
rozpoznawanej. Dzięki temu wyposażony w moduł rozpoznawania twarzy tele- 
wizor mógłby automatycznie blokować określone kanały „widząc”, że przed ekra- 
nem znajduje się dziecko. Z kolei system identyfikacji osób dokonujących za- 
kupów przez Internet byłby bezpieczniejszy, gdyby — oprócz skontrolowania, czy 
wprowadzono odpowiednie numery karty kredytowej — mógł sprawdzić, czy przy 
komputerze siedzi rzeczywiście osoba będąca właścicielem karty. W takich dzie- 
dzinach jak wirtualna rzeczywistość czy gry komputerowe rozpoznawanie twarzy 
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może umożliwić na przykład zmiany zachowania wirtualnych postaci w zależno- 
ści od tego, kto pojawi się przed monitorem komputera. Przykładowe obszary 
zastosowań systemów rozpoznawania twarzy to: 


e karty z danymi biometrycznymi 


- prawa jazdy, upoważnienia, karty wstępu 
— dokumenty imigracyjne, paszporty, rejestracja wyborców 
— ochrona przed nadużyciami w pomocy społecznej oraz służbie zdrowia 


e zabezpieczenie informacji 


— kontrola rodzicielska dostępu do kanałów TV, logowanie do urządzeń osobi- 
stych i kont 

- ochrona do dostępu do programów, baz danych, plików 

— bezpieczeństwo połączeń internetowych, kontrola dostępu do Internetu, 
ochrona danych medycznych 

— bezpieczne zakupy w siecie 


e wymiar sprawiedliwości, ochrona budynków 


- zaawansowane systemy ochrony, telewizja przemysłowa 

— kontrola dostępu, analiza danych do śledztwa 

- eliminowanie kradzieży w sklepach, śledzenie podejrzanych, prowadzenie 
dochodzeń 


e rozrywka 


— gry komputerowe, wirtualna rzeczywistość, programy szkoleniowe 
— roboty społeczne 


Podczas prac przedstawianych w niniejszym rozdziale wykorzystano bazę da- 
nych FERET zawierającą zjęcia twarzy zebrane w ramach programu FERET, spon- 
sorowanego przez DOD Counterdrug Technology Development Program Office 
(Portions of the research in this paper use the FERET database of facial images col- 
lected under the FERET program, sponsored by the DOD Counterdrug Technology 
Development Program Office.). 


5.2. Architektura systemów rozpoznawania twarzy 


Zautomatyzowanie procesu rozpoznawania twarzy wymaga (rys.[5.1): a) prze- 
prowadzenia odpowiedniej segmentacji obrazu (detekcji twarzy uchwyconej na 
zdjęciu); b) wydobycia cech z fragmentu obrazu reprezentującego twarz; c) do- 
konania klasyfikacji pozyskanych danych, czyli identyfikacji osoby. Czasami wy- 
mienione etapy przetwarzania nie są rozłączne — na przykład cechy twarzy uży- 
wane do identyfikacji często są wykorzystywane już w procesie detekcji. Tak więc 
lokalizowanie twarzy na obrazie może być połączone z ekstrakcją jej cech. 

W przypadku rozpoznawania twarzy problem ekstrakcji cech ma fundamen- 
talne znaczenie. Należy przy tym zaznaczyć, że jest to zagadnienie szczególnie 
trudne i złożone, bowiem obraz twarzy tej samej osoby może się znacząco zmie- 
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niać w zależności od kąta obserwacji, rodzaju i kierunku oświetlenia czy też na- 
stroju. Twarz człowieka uśmiechniętego wygląda inaczej niż twarz kogoś zdzi- 
wionego bądź znudzonego (rys.[5.2). W praktyce istotne okazuja sig równiez ta- 
kie czynniki jak fryzura, makijaż, zarost, noszenie okularów czy nakrycie głowy. 
Nie bez znaczenia są też zmiany, nierzadko bardzo poważne, powodowane przez 
upływ czasu. 


Wejściowy obraz lub zapis video 


Inne zastosowania: 
- śledzenie twarzy 
Detekcja twarzy - określenie ustawienia głowy 
- kompresja obrazu 
! - komunikacja człowiek-komputer 
równocześnie? 
i Inne zastosowania: 
- śledzenie elementów twarzy 
Ekstrakcja cech - rozpoznawanie emocji 
- śledzenie wzroku 
- komunikacja człowiek-komputer 


Podejścia: 

- wzorce całościowe 

- analiza charakterystycznych 
fragmentów (cech) 

- podejście hybrydowe 


Klasyfikacja 


Identyfikacja / weryfikacja 


Rys. 5.1: Ogólny schemat systemu rozpoznawania twarzy. 


Ekstrakcja cech w automatycznym rozpoznawaniu twarzy odgrywa szczegól- 
nie ważną rolę, trzeba bowiem z całego zakresu zmienności danych wychwycić 
informację inwariantną, zawierającą cechy istotne z punktu widzenia identyfika- 
cji [I]. Można tu wyróżnić pięć najważniejszych typów rozwiązań: 


e Podejście oparte o specjalistyczny sprzęt, umożliwiający wydobywanie cech in- 
nych niż uzyskiwane z typowych fotografii i wykorzystujący np. techniki ter- 
mograficzne (rys. [5.3h). Potrzebne sa jednak do tego odpowiednie urzadze- 
nia, poza tym tego rodzaju rozwiązania są nieprzydatne do celów sortowania 
czy wyszukiwania zdjęć. Odrębną grupę stanowią metody operujące na ob- 
razie trójwymiarowym, uzyskiwanym za pomocą stereowizji lub specjalizowa- 
nych skanerów. Na ogół jednak rozpoznawanie twarzy wymaga przeprowadza- 
nia analizy obiektu trójwymiarowego na podstawie dwuwymiarowego obrazu 
(rys. [5.3b). Już sama natura problemu jest zatem źródłem licznych trudności 
i ograniczeń. 

e Podejście „geometryczne” (rys. [5.3p) — twarz opisywana jest przez zbiór war- 
tości kątów, odległości czy pól, wyznaczonych w oparciu o charakterystyczne 
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Rys. 5.2: Przykład zmienności danych opisujących twarz tej samej osoby (smu- 
tek, radość, przerażenie, pewność siebie, rozczarowanie, zadowolenie, wzrusze- 
nie, miłość, złość, zaskoczenie). 


Rys. 5.3: Przykłady różnych sposobów ekstrakcji twarzy: a) obraz termograficzny; 
b) dane ze skanera 3D; c) cechy geometryczne; d) wydzielone fragmenty. 


punkty, takie jak środki oczu, koniec nosa itd. Problemem jest w tym przy- 
padku precyzyjne zlokalizowanie odpowiednich fragmentów twarzy. Staje się 
to szczególnie trudne lub wręcz niemożliwe, gdy zdjęcie nie jest wykonane do- 
kładnie od przodu. Wówczas niektóre istotne części twarzy mogą być nawet 
całkowicie niewidoczne. Sporządzanie opisu matematycznego poprzez wyzna- 
czanie geometrycznych parametrów było jednym z pierwszych, najbardziej in- 
tuicyjnych pomysłów na ekstrakcję cech w rozpoznawaniu twarzy. Obecnie 
jednak podejście to praktycznie nie jest już rozwijane. 

Podejście bazujące na wzorcach — z twarzy wydzielane są najistotniejsze frag- 
menty, takie jak oczy, nos czy usta (rys. 5.3H), następnie badana jest zgod- 
ność (korelacja) wzorca przechowywanego w bazie z rozpoznawanym obrazem 
i właśnie wartość korelacji stanowi tu cechę będącą podstawą rozpoznawania. 
W tym przypadku również niezbędny jest algorytm pozwalający na wydziele- 
nie z fotografii odpowiednich fragmentów. Pewna modyfikacja tego podejścia 
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wykorzystuje techniki przekształcania obrazów — sprawdzane jest, jak bardzo 
trzeba zmienić obraz wzorcowy, by uzyskać obraz rozpoznawany. Im więk- 
sza modyfikacja, tym mniejsze jest podobieństwo obrazów. Wykazano, że takie 
rozwiązanie ma przewagę nad podejściem geometrycznym, pomimo znacznie 
większej złożoności obliczeniowej. 
e Podejście, w którym wykorzystuje się bezpośrednio informacje o jasności po- 
szczególnych punktów, składających się na obraz twarzy (lub jej charaktery- 
stycznego elementu). W tym przypadku zdjęcie traktowane jest jak macierz, 
do której można stosować różne przekształcenia matematyczne, mające na 
celu wydobycie informacji. Cechami pierwotnymi są tu po prostu wartości in- 
tensywności kolejnych pikseli, które następnie mogą podlegać różnorodnym 
transformacjom. Szczególnie dużą popularnością cieszy się metoda tzw. „twa- 
rzy własnych” (ang. eigenfaces), wykorzystująca analizę głównych składowych 
(ang. Principal Component Analysis, PCA), która została przedstawiona w po- 
niższym rozdziale. Poza tym wykorzystywane są też techniki dyskryminacyjne, 
autokorelacje, falki i wiele innych metod. Ten właśnie sposób wydobywania 
cech twarzy zyskał w ostatnich latach ogromną popularność i dominuje wśród 
metod opisywanych w aktualnej literaturze. 
Podejście oparte o deformowalne modele, które zawierają pewną informację 
ogólną, potrafią jednak samodzielnie się modyfikować, tak aby uzyskać naj- 
lepsze dopasowanie do danego obiektu -— w tym przypadku twarzy. Informa- 
cje niskiego poziomu, związane z jasnością poszczególnych pikseli są tu wy- 
korzystywane tylko pośrednio, zasadniczą rolę odgrywa pewna wiedza zawarta 
w strukturze modelu. Cechy twarzy mogą być określone np. poprzez parametry 
modelu dopasowanego do rzeczywistego obrazu. Rozwiązania wykorzystujące 
modele są wciąż w stadium badań i eksperymentów. Wiąże się z nimi nadzieję 
na przełamanie ograniczeń, jakie wykazują inne podejścia, w praktyce jednak 
ich stosowanie nastręcza wielu trudności. 


Należy wspomnieć również o dużej grupie rozwiązań wykorzystujących sieci 
neuronowe. Tego typu metody występują jednak na ogół w połączeniu z jednym 
z podejść opisanych powyżej. Z rozpoznawaniem twarzy wiążą się też specy- 
ficzne problemy dotyczące selekcji cech i klasyfikacji. Przede wszystkim, liczba 
wykorzystywanych cech jest na ogół bardzo duża. Nawet wówczas, gdy są to war- 
tości pomiarów geometrycznych, bierze się pod uwagę kilkadziesiąt parametrów. 
Natomiast w przypadku, gdy jasność każdego z pikseli stanowi odrębną cechę, 
dla zdjęcia o wymiarach np. 100x100 uzyskujemy wektor, który ma 10000 składo- 
wych. Jednocześnie, liczba obrazów uczących (będących do dyspozycji) jest naj- 
częściej niewielka, ponieważ każdą osobę reprezentuje na ogół tylko kilka zdjęć. 
Prowadzi to do wystąpienia tzw. problemu małego zbioru danych (liczba cech jest 
niewspółmiernie wielka w stosunku do liczby zdjęć dostępnych na etapie ucze- 
nia). 
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Jednym ze sposobów na wydobycie informacji zawartej w obrazach twarzy, 
tworzących pewien zbiór uczący, może być uchwycenie najbardziej charaktery- 
stycznych różnic występujących wśród tych obrazów. Z matematycznego punktu 
widzenia optymalną metodą wydobycia i zakodowania informacji o wariancji 
w zbiorze obrazów jest zastosowanie analizy głównych składowych, określanej 
również mianem rozwinięcia Karhunena-Loevego [2]. 

Załóżmy, że obraz twarzy I(x, y) jest dwuwymiarową macierzą N na N w 8- 
bitowej skali szarości (0-255). Z drugiej strony taki obraz można traktować jako 
wektor w przestrzeni N?, zatem typowy obraz rozmiaru 256 na 256 jest wektorem 
rozmiaru 65 536 lub równoważnie punktem w przestrzeni 65 536 wymiarowej. 
Wtedy zespół obrazów jest zbiorem punktów w ogromnej przestrzeni. 

Operowanie w tak dużej przestrzeni jest trudne. Ideą metody analizy głów- 
nych składowych PCA jest znalezienie takich wektorów, które najlepiej będą opi- 
sywać obrazy twarzy w takiej przestrzeni [3]. Te wektory tworzą podprzestrzeń, 
którą nazywaną „przestrzenią twarzy”. Każdy wektor jest długości N?, opisują- 
cym obraz rozmiaru N x Nijest liniową kombinacją oryginalnych obrazów twa- 
rzy. Ponieważ te wektory są wektorami własnymi macierzy kowariancji utworzo- 
nej z oryginalnych obrazów twarzy i ponieważ są one odzwierciedleniem twarzy, 
zostały nazwane „twarzami własnymi” lub jak się pojawiają w literaturze „eigen- 
faces” [41[5]. 

Niech treningowy zbiór twarzy (przykładowy zbiór przedstawiono na rys.[5.4) 
bedzie oznaczony przez 

Ti, T2... Tm (5.1) 


gdzie T; to kolejny obraz. Tak zwana „twarz średnia” zdefiniowana będzie po- 
przez 


1 M 
Y= — Tr 5.2 
M 2 n (5.2) 
Każda twarz różni sie od średniej o wektor 
Q;=[;-W (5.3) 
W metodzie głównych składowych poszukiwany jest zbiór M ortonormalnych 


wektorów u;, które najlepiej opisują rozrzut danych. Wektor i-ty jest wybierany, 
aby zmaksymalizować kryterium 


Aj = ES > (uj ©)” (5.4) 
M m 


Ponieważ wektory u; tworzą bazę ortonormalną, to zachodzi warunek 


VI<Lk<M HPP > s, (5.5) 


ts 
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Rys. 5.4: Przykład zbioru twarzy. 


Z drugiej strony wektory u; oraz skalary A; są wektorami własnymi oraz warto- 
ściami własnymi macierzy kowariancji 


1 M 
a 


14 T 
y 2 OnO = AA", (5.6) 


n=l 
gdzie macierz A dana jest przez 
A=[0/0...Oy] (5.7) 


Na rys. przedstawiono przykład twarzy średniej oraz twarzy własnych dla 
danych z 

Macierz kowariancji C jest wymiaru N? na N? i posiada N* wektorów i war- 
tości własnych. Jest to duży zbiór danych, który należałoby zawęzić, aby możliwe 
było jego przetwarzać w rozsądnym czasie. Jeśli ilość danych punktów jest mniej- 
sza niż rozmiar przestrzeni (M < N?) to wtedy będzie tylko M — 1 głównych wek- 
torów własnych. Pozostałe odpowiadają wartościom własnym równym 0. Zatem 
zamiast rozpatrywać N* wektorów własnych można rozpatrywać wektory własne 
macierzy M na M i wtedy brać do analizy liniowe kombinacje obrazów twarzy ©;. 
Rzeczywiście biorąc wektory własne v; macierzy A’ A takie, że 


A! Avi = Hi vi (5.8) 
i przemnażając lewostronnie przez A otrzymujemy 
AA! Av; = ui Avi (5.9) 


Jak widać, Av; jest wektorem własnym macierzy kowariancji C = AA’. Idąc dalej 
tym tropem można skonstruować macierz rzędu M na M o następującej postaci 
L= A" A, gdzie Linn = ©), ®,. Następnie dla L można znaleźć M wektorów wła- 
snych v;. Te wektory determinują liniową kombinację M treningowego zbioru do 
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Rys. 5.5: Zdjęcie w lewym górnym rzędzie przedstawia uśrednioną twarz dla zdjęć 
Z rys. Pozostałe dwa zdjęcia w górnym rzędzie przedstawiają eigenfaces dla 
znaczących wartości własnych, natomiast dolny rząd eigenfaces dla trzech naj- 
mniejszych wartości własnych. 


formy twarzy własnych eigenfaces uy. 


uj=) MvyOdy, 1=1,2,...,M. (5.10) 
k=1 


Dzięki tym przekształceniom można znacznie zredukować ilość wykonywanych 
obliczeń, przechodząc z wymiaru obrazu N? na ilość obrazów zbioru uczącego 
M. W praktyce M jest dużo mniejsze od N?, a co za tym idzie, czas wykonywa- 
nych obliczeń jest akceptowalny. 

Dodawanie nowej twarzy (T) polega na przetransformowaniu jej w przestrzeń 
twarzy za pomocą operacji 


węk=u;(T-W9), k=1,2,...,M. (5.11) 
Po tym zabiegu tworzony jet wektor wag 
QT =[01,02,...,0ml (5.12) 


który opisuje rzuty obrazu twarzy na poszczególne wektory bazowe zbioru ucza- 
cego. Ten wektor wykorzystywany jest w standardowej klasyfikacji, odpowiadaja- 
cej na pytnie, do której ze wcześniej predefiniowanych klas należy badany obraz. 
Najprostszym sposobem doboru klasy jest skorzystanie z normy euklidesowej: 


ek = IIQ- Qxl’, (5.13) 


gdzie O; jest wektorem opisującym k-tą klasę. Ta klasa, która będzie minima- 
lizowała normę będzie determinować klasę badanego obrazu. Twarz jest zakla- 
syfikowana do klasy k jeśli norma euklidesowa jest mniejsza niż pewna wartość 
progowa ĝe. W przeciwnym wypadku rezultatem klasyfikacji jest wynik nieznany 
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lub opcjonalnie nowa twarz jest użyta do stworzenia nowej klasy. Ponieważ two- 
rzenie wektora wag jest równoważne rzutowaniu oryginalnego obrazu twarzy na 
przestrzeń mało wymiarową, wiele obrazów (niektóre nawet nie wyglądające jak 
twarz) mogą być omyłkowo podobne to wzorcowego obrazu, co pokazano na 


rys. 


Rys. 5.6: Zdjęcie oryginalne (górny rząd) oraz ich transformacje w przestrzeń twa- 
rzy (dolny rząd). 


Dystans pomiędzy obrazem i przestrzenią twarzy jest równy dystansowi mię- 
i 
dzy różnicowym obrazem wejściowym © =T — Y a wektorem ©; = >: ¡ OjUj 


ACZ (5.14) 


Istnieją cztery możliwości położeniem obrazu wejściowego względem wzorco- 
wego wektora: 


e blisko przestrzeni twarzy i blisko przestrzeni klasy twarzy - wtedy następuje 
dopasowanie obrazu do klasy, 

e blisko przestrzeni twarzy a daleko przestrzeni klas twarzy - wtedy obraz zostaje 

zakwalifikowany jako nieznany, 

daleko od przestrzeni twarzy i blisko przestrzeni klas twarzy - obraz nie jest 

twarzą, ale poprzez rzutowanie system może błędnie go zakwalifikować jako 

pewną twarz, 

daleko od przestrzeni twarzy oraz daleko od przestrzeni klas - obraz nie jest 

twarzą. 


Podsumowując, przedstawiony algorytm rozpoznawania twarzy za pomocą 
eigenfaces składa się z następujących etapów: 
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1. 


Algorytm PCA 


Znalezienie zbioru indywidualnych twarzy. Ten zbiór powinien zawierać 
pewną liczbę twarzy każdej osoby z różnymi wariantami oświetlenia lub po- 
zycji (np. 4 zdjęcia 10 osób, stąd M = 40). 


. Wyznaczenie macierzy L rozmiaru M x M (40x40) i znalezienie jej wartości 


oraz wektorów własnych. Należy wybrać M' wektorów odpowiadające naj- 
wyższym wartością własnym (niech M' = 10). 


. Znormalizowanie zbioru treningowego. W wyniku otrzymuje się M’ (M = 10) 


twarzy własnych (eigenfaces). 


. Wyliczenie wagowego wektora klasy Q; dla każdej osoby, poprzez usrednienie 


wektorów wzorcowych twarzy własnych Q wyliczonych z (czterech) oryginal- 
nych obrazów twarzy. Należy przy tym określić próg ©, oznaczający maksy- 
malną odległość od przestrzeni klasy twarzy oraz próg ©, oznaczający mak- 
symalną odległość od przestrzeni twarzy. 


. Wyliczenie wektora wagowego O x, odległości e; od każdej klasy oraz odle- 


głość e od przestrzeni twarzy dla każdej nowej twarzy, która ma być rozpo- 
znana. Jeśli minimalny dystans €% < O, oraz odległość e < O, wtedy wejściowy 
obraz twarzy klasyfikowany jest do klasy odpowiadającej wektorowi wzorco- 
wemu Ox. Jeśli e > O, ale € < O¿ wtedy twarz jest klasyfikowana jako nieznana 
i opcjonalnie tworzona jest nowa klasa (odpowiadająca temu obrazowi). 


„ Jeśli twarz został zakwalifikowana do pewnej klasy to może być użyta do stwo- 


rzenia nowej klasy przestrzeni twarzy (wymaga to powtórzenia kroków 1-4). 
Daje to możliwość powiększania przestrzeni twarzy i lepszej klasyfikacji, jako 
że system posiada w bazie więcej obrazów twarzy. 


5.4. Przykładowa implementacja 


Algorytm rozpoznawania twarzy może stanowić część systemu kontroli do- 


stępu. Zaimplementowane mechanizmy mogą umożliwiać porównanie i rozpo- 
znanie osoby na podstawie analizy zdjęć z bazy programu. W celu przetestowania 
samego algorytmu zbudowano prototyp systemu w oparciu o następujące zało- 
żenia: 


architektura modułowa systemu, 

rozpoznawanie twarzy w oparciu o fotografie (brak możliwości analizy obrazów 
uzyskiwanych w czasie rzeczywistym), 

fotografie twarzy monochromatyczne i znormalizowane, 

algorytm rozpoznawania twarzy oparty o PCA, 

klasyfikacja twarzy w oparciu o normę euklidesową, 

prototypowanie w środowisku Matlab/Simulink, 

produkt końcowy w C++ i Qt4, 

produkt końcowy dostarczony wraz z dokumentacją, instrukcją instalacji 
i użytkownika, 

docelowe środowisko uruchomieniowe Windows. 
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5.5. Badania 


Badania działania algorytmu przeprowadzono z wykorzystaniem środowiska 
Matlab/Symulink oraz bazy obrazów FERET [6][7]. Dla bazy wiedzy składającej 
się z 10 obrazów twarzy różnych osób zrealizowano trzy scenariusze: 


e pojawienie się tego samego zdjęcia, 


e pojawienie się zdjęcia osoby będącej w bazie ale z innym wyrazem twarzy, 
e pojawienie się nieznanej twarzy. 


Podczas każdego z testów badany obraz zapisywano w bazie przestrzeni ob- 
razów zbioru uczącego, rozpinanej przez wyznaczone eigenfaces, a następnie ba- 
dano, z wykorzystaniem normy euklidesowej, dystans pomiędzy obrazem a prze- 


strzenią twarzy. 
Qı Q2 Q3 Qs Os 
@, | -5.87e-008 | -1.09e-007 | -5.38e-008 | -5.18e-008 | -4.13e-008 
wo | -3.50e+006 | -2.14e+006 | 4.07e+005 | -5.92e+005 | -3.42e+006 
w3 | -9.97e+006 | 7.01e+006 | -8.89e+006 | 4.02e+006 | -1.34e+006 
wą | -6.49e+006 | 5.85e+006 | -1.13e+007 | 7.43e+006 | -4.58e+006 
w5 1.24e+007 | -7.77e+006 | -3.23e+006 | 1.01e+007 | -2.26e+006 
we | -2.04e+007 | 1.17e+007 1.87e+007 1.06e+007 | -3.30e+006 
(07 8.20e+006 | 3.02e+007 | -6.79e+004 | -1.88e+007 | 7.29e+006 
wg | -1.17e+007 | -5.75e+006 | 6.97e+006 | -3.78e+007 | -1.89e+007 
W9 1.23e+007 | 8.79e+006 | -4.26e+007 | -5.72e+006 | 6.15e+006 
wig | -6.65e+007 | -4.40e+007 | -1.55e+007 | -2.52e+007 | 1.40e+008 
Og 07 Os Oy Q10 

WI 5.76e-008 1.27e-007 | -2.37e-008 | 1.21e-007 3.32e-008 

wo | -1.01e+007 | -4.09e+006 | 2.25e+006 | 3.70e+006 1.74e+007 

(03 3.90e+005 1.17e+007 | 5.80e+006 | -1.26e+007 | 3.83e+006 
W4 4.33e+006 | -1.13e+007 | 9.22e+006 1.16e+007 | -4.77e+006 
ws | -2.38e+007 | 1.01e+007 1.39e+007 | 2.93e+006 | -1.23e+007 
wę | -1.14e+007 | 6.17e+006 | -1.31e+007 | 9.84e+006 | -8.88e+006 
wz | -1.41e+007 | -9.03e+006 | 4.35e+006 | -4.36e+006 | -3.75e+006 
wg | 7.80e+006 | 2.32e+007 | 2.07e+007 | 2.09e+007 | -5.36e+006 
wg | -5.61e+006 | 2.82e+007 | -4.11e+007 | 3.22e+007 7.39e+006 
wig | -2.00e+007 | -3.38e+006 | 2.55e+007 | 2.05e+007 | -1.17e+007 

Tab. 5.1: Tabela wag dla poszczególnych obrazów. 


Postępując zgodnie z algorytmem opisanym w punkcie 
cego pokazanego na rys.[5.7|wyznaczono średnią twarz (rys. 


3|dla zbioru uczą- 


). Następnie dla 
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każdego z obrazów policzono jego różnicę z twarzą średnią, co przedstawiono na 
rys. Kolejnym krokiem było wyznaczenie wektorów twarzowych (rys. 


i wektora wag dla każdej z twarzy z bazy (tab. 5.1). Mając wyznaczoną bazę dla 
przestrzeni twarzy zrekonstruowano twarze na podstawie wyliczonych wag. Wy- 


nik tej operacji pokazano na rys. 
A | 


Rys. 5.7: Zbiór uczący wykorzystany przy badaniach (obrazy pochodzą z bazy 


zdjęć FERET). 


Rys. 5.8: Twarz średnia dla przyjętego zbioru uczącego. 


Analizując otrzymane rekonstrukcje obrazów twarzy można zauważyć cie- 
kawą prawidłowość. Zdjęcia osób, których twarze mają wyraźnie inny odcień niż 
tło zostały odtworzone lepiej. Spowodowane jest to małą ilością punktów wyróż- 
niających daną twarz w stosunku do tła (punktów charakterystycznych). W celu 
poprawienia rezultatów należałoby zmodyfikować obraz twarzy tak, by uwidocz- 
nić różnice pomiędzy twarzą a tłem. Dobrym pomysłem do sprawdzenie wydaje 
się być dopasowanie histogramu barw. 

Mając wyznaczone wektory wag dla poszczególnych twarzy oraz bazę prze- 
strzeni obrazów twarzy przystąpiono do badań według zaproponowanych sce- 
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Rys. 5.10: Wyznaczona baza przestrzeni obrazów. 


nariuszy. Każdy z nowych obrazów rozpisano w bazie rozpinającej przestrzeń 
twarzy (równanie . Następnie dla wyliczonego wektora wag Q wyznaczono 
wektor odległości od znanych systemowi twarzy, korzystając z równania 


1. Pojawienie się tego samego zdjęcia 
Przyjęto, że nowym zdjęciem pojawiającym się na wejściu systemu jest fo- 
tografia numer 5. Otrzymano następujące odległości od obrazów ze zbioru 
uczącego: 


nr 1 2 3 4 5 6 7 8 9 10 
€a[10*] 2.08 | 1.87 | 1.67 | 1.70 | 0.00 | 1.66 | 1.54 | 1.33 | 1.32 | 1.55 


Zgodnie z przewidywaniami najmniejsza odległość wystąpiła dla twarzy nu- 
mer 5. 

2. Pojawienie się zdjęcia osoby będącej w bazie ale z innym wyrazem twarzy 
Sprawdzono reakcję systemu przy pojawieniu się na wejściu systemu zdjęcia 
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Rys. 5.11: Zrekonstruowane obrazy twarzy na podstawie wyznaczonego wektora 
wag i eigenfaces. 


osoby zapisanej w bazie ale majacej inny wyraz twarzy (inna mine). Obraz dla 
jakiego przeprowadzono badanie przedstawiono na rys.|5.12h. Odległości od 
znanych systemowi twarzy wyrażają się następująco: 


nr 1 2 3 4 5 6 7 8 9 10 
€,[10’] | 8.28 | 6.46 | 1.42 | 5.82 | 16.2 | 4.94 | 7.39 | 5.70 | 8.29 | 5.31 


Jak widać współczynnik odległości przyjmuje najmniejszą wartość dla trzeciej 
twarzy z zestawu uczącego. System poprawnie zakwalifikowałby osobę. 

3. Pojawienie się nieznanej twarzy 
Sprawdzono również odpowiedź systemu dla nieznanej twarzy. Do testu wy- 
korzystano zdjęcie pokazane na rys.|5.12b. Uzyskano odległości: 


nr 1 2 3 4 5 6 7 8 9 10 
€,(10’] | 13.5 | 11.3 | 9.21 | 10.6 | 8.47 | 8.90 | 7.78 | 5.95 | 5.88 | 8.09 


Wartość minimalną normy euklidesowej wektora wag badanego obrazu i wag 
obrazów z bazy otrzymano dla dziewiątego obrazu. Jej wartość jest kilku- 
krotnie większa od wartości uzyskanej dla innego zdjęcia tej samej osoby, 
minie.) = 5.88- 108 > 1.42-107 , co było prezentowane w poprzednim badaniu. 
Należałoby przeprowadzić dużo większą liczbę testów i w ich wyniku określić 
pewną wartość progową € gr przy przekroczeniu której obraz byłby traktowany 
jako zdjęcie nowej twarzy. 


Wyniki przeprowadzonych testów algorytmu rozpoznawania twarzy opartego 
na dyskryminacyjnej analizie danych pokazują, że dla odpowiednio dobranego 
zbioru uczącego działanie algorytmu jest bardzo obiecujące. W przypadku rze- 
czywistej implementacji systemu kontroli dostępu opartego o analizowany algo- 
rytm należy jednak wziąć pod uwagę całą gamę czynników, które w niniejszym 
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Rys. 5.12: Zdjęcia wykorzystane do testu działania algorytmu: a) fotografia osoby, 
której zdjęcie znajduje się w zbiorze uczącym (trzecie zdjęcie w pierwszym wier- 
SZU, rys.[5.7), ale z innym wyrazem twarzy; b) fotografia spoza zbioru uczącego. 


studium pominięto. Przyjęte założenie o skorzystaniu z gotowych fotografii było 
znacznym uproszczeniem. Zdjęcia zostały wykonane w warunkach laboratoryj- 
nych z jednolitym tłem i przy stałym oświetleniu. Jakkolwiek system w przepro- 
wadzonych testach pokazał poprawną identyfikację osoby na podstawie fotogra- 
fii innej niż ta zapisana w bazie, ciągle była to fotografia o bardzo zbliżonych para- 
metrach, bo wykonana w tych samych warunkach i krótkim odstępie czasowym. 
Dla pełnej oceny algorytmu należałoby przeprowadzić serię testów dla fotogra- 
fii uzyskanych w różnych warunkach oświetleniowych, przy różnej kondycji fo- 
tografowanej osoby (stopień zmęczenia, czystość powłok skórnych, fryzura itp.). 
Należałoby również rozszerzyć zestaw uczący o taki zestaw fotografii dla każdej 
osoby. 


5.6. Podsumowanie 


Mimo 30 lat badań i rozwoju rozpoznawanie twarzy wciąż nie jest technologią, 
której można bezkrytycznie ufać i którą można masowo stosować. Niezawodne 
algorytmy automatycznej lokalizacji i rozpoznawania twarzy, działające w każ- 
dych warunkach, nie istnieją. Naukowcy są często nieobiektywni, a zaangażo- 
wanie instytucji komercyjnych, zainteresowanych osiągnięciem finansowych zy- 
sków, jeszcze pogarsza sytuację. Mimo wszystko postęp w dziedzinie rozpozna- 
wania twarzy jest duży. Sukcesy odnotowano zwłaszcza przy zagadnieniach mi- 
nimalizowania wpływu oświetlenia na wyniki rozpoznawania. Wydaje się też, że 
obiecujące perspektywy mają rozwiązania wykorzystujące specjalistyczny sprzęt, 
taki jak skanery trójwymiarowe. 
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ROZDZIAL 


GESTY DLONI 
E Melka, M. Zarkowski 


6.1. Wstep 


Ludzkie dłonie są dobrym medium do przekazu prostych komend oraz nie- 
skomplikowanych idei. Gesty dłoni, które są reprezentacją unikalnych kształtów 
oraz układów palców, mogę pełnić rolę interfejsu, który może zostać wykorzy- 
stany jako alternatywna metoda sterowania różnymi urządzeniami np. kompu- 
terami [1]. Wiąże się to z potrzebą komunikacji z otaczającymi nas maszynami 
w sposób bardziej zbliżony do naturalnego. Wzrost popularności rzeczywisto- 
ści rozszerzonej (ang. augmented reality) [2] także sprzyja popularyzacji tego za- 
gadnienia. Trend ten wyraźnie widać na rynku konsol do gier. Najwięksi produ- 
cenci zaczynają produkować kontrolery do swoich urządzeń oparte na systemie 
kamer. Przykładami są PlayStation Eye firmy Sony [3] oraz Kinect Microsoftu [4]. 
Amatorsko powstają także aplikacje na komputery PC umożliwiające rozszerze- 
nie funkcjonalności myszki o dodatkowe tzw. gesty [5] - wzorowane na systemie 
multitouch, zaimplementowanym w mobilnych urządzeniach firmy Apple. 

Rozpoznawanie gestów dłoni jest także wykorzystywane do wspomagania 
procesów komunikacji osób z upośledzonym narządem mowy lub słuchu [61[7][8]. 
Translatory języka migowego na język pisany wypełniłyby lukę komunikacyjną, 
pomiędzy osobami głuchoniemymi, a w pełni sprawnymi. Ponadto programy 
służące do nauki języka migowego umożliwiłyby łatwiejszy dostęp do języka mi- 
gowego osobom sprawnym, chcących się go nauczyć. 


6.1.1. Gesty 


Gestem nazywamy dowolny ruch wykonany świadomie lub nieświadomie, 
mający określone znaczenie. Stereotypowe myślenie nierozłącznie wiąże je 
z dłońmi i rękoma. W rzeczywistości może on zostać wykonany dowolną częścią 
ciała lub być wyrażony poprzez mimikę twarzy, postawę ciała etc. 

Zazwyczaj gesty są rozumiane przez osoby należące do grupy, która przebywa 
w danym środowisku lub kręgu kulturowym (jak gesty pokazane na rys. . Nie- 
które z nich, dzięki mediom oraz prostocie przekazu, upowszechniły się na ca- 


6. Gesty dtoni 


Rys. 6.1: Przykładowe gesty dłoni (Źródło: 
z5640551N. jpg, http: 


łym świecie. Przykładowo gest w postaci kciuka uniesionego do góry, w kulturze 
zachodniej ma kontekst pozytywny i oznacza wszystko w porządku. Natomiast 
w kulturze Bliskiego Wschodu ma on bardzo pejoratywny wydźwięk o kontekście 
seksualnym. 

Gesty służą do komunikacji pozawerbalnej i niosą ze sobą informacje na te- 
mat podstawowych stanów emocjonalnych, intencjach, oczekiwaniach wobec 
rozmówcy, pozycji społecznej, pochodzeniu, wykształceniu, samoocenie, ce- 
chach temperamentu itp. 


6.1.2. Język migowy 


Czy język gestów można nazwać językiem migowym? Nie. Język gestów służy 
do wspomagania komunikacji werbalnej, natomiast język migowy służy do bu- 
dowania wypowiedzi i komunikacji interpersonalnej. Docelową grupą, korzysta- 
jącą z tego języka, są osoby z upośledzeniem narządu mowy oraz słuchu. Miga- 
nie umożliwia im uniknąć wykluczenia ze społeczeństwa związanego z brakiem 
możliwości komunikacji werbalnej. 

W tym języku występują zarówno dynamiczne jak i statyczne gesty. W więk- 
szości przypadków te pierwsze reprezentują całe słowa, natomiast drugie (z kil- 
koma wyjątkami) są wykorzystywane w jednoręcznym alfabecie palcowym służą- 
cym do migania pojedynczych liter (zobacz rys.[6.2). 


6.2. Komputerowe wsparcie w nauce jezyka migowego 


Stworzona aplikacja ma za zadanie wspomagaé uczenie sie gestów jezyka mi- 
gowego. Jednym z podstawowych założeń jest rozpoznawanie statycznych ukła- 
dów dłoni. W związku z tym litery, których reprezentacja wymaga ruchu, są igno- 
rowane. Pomijane są także niektóre statyczne gesty, które mogłyby wprowadzić 
element niepewności w klasyfikacji np. ze względu na zbliżony do innej litery 
układ dłoni. Domyślnie program działa prawidłowo dla dziewiętnastu znaków 
amerykańskiego alfabetu palcowego, jednak może on operować na dowolnej ba- 
zie gestów. Co więcej, można ją swobodnie edytować i podmieniać na własną. 
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Rys. 6.2: Przykłady liter w jednoręcznym alfabecie palcowym (Źródło: http: // 
en.wikipedia.org/wiki/File:ABC_pict.png). 


W obecnej wersji program dysponuje trzema metodami nauczania gestów ję- 
zyka migowego. Pierwsza metoda od człowieka do komputera — podstawowa po- 
lega na tym, że użytkownik miga sekwencję liter, którą wyświetla komputer. Na- 
stępnie na podstawie poprawności wykonania gestów oraz przeprowadzonych 
statystyk zostaje wyświetlona ogólna ocena. Aplikacja wyświetla podpowiedź 
w formie zdjęcia oczekiwanego gestu. 

Druga metoda od człowieka do komputera — zaawansowana jest modyfikacją 
metody pierwszej. Użytkownik musi skorzystać ze swojej wiedzy, ponieważ apli- 
kacja przestaje wyświetlać podpowiedzi. 

Trzecia metoda od komputera do człowieka — komputer wyświetla zdjęcia 
różnych liter alfabetu palcowego, a użytkownik wprowadza ich odpowiedniki na 
klawiaturze. To podejście jest pomocne dla osób, które dopiero zaczynają naukę 
i nie znają jeszcze żadnych układów dłoni. 

W każdej metodzie możliwa jest regulacja poziomu trudności poprzez zmianę 
czasu oczekiwania na zamiganie gestu. Pobranie gestu może odbywać się w ciągu 
całego czasu oczekiwania lub dopiero pod koniec — uniemożliwia to poprawę 
nieudanego gestu. Gesty mogą wyświetlać się w wyznaczonej kolejności lub lo- 
sowo. Możliwa do modyfikacji jest także ilość testowanych gestów. 


6.3. Oprogramowanie 


Do wykonania aplikacji wykorzystano język C wraz z biblioteką do przetwa- 
rzania obrazów EmguCV. Zaimplementowano w nim trzy metody segmentacji 
obrazu dłoni: statyczny detektor skóry, adaptacyjny detektor skóry oraz metodę 
wykorzystującą technikę odejmowania tła. Użytkownik może sam zdecydować, 
która z nich ma być wykorzystywana podczas przetwarzania obrazu. Klasyfikacja 
odbywa się za pomocą algorytmu k najbliższych sąsiadów. 
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6.3.1. Akwizycja obrazu 


Do przechwytywania obrazu wykorzystano zwykłą kamerę internetową. Roz- 
dzielczość nie jest parametrem krytycznym, więc każdy sprzęt takiego rodzaju 
powinien wystarczyć do prawidłowej pracy programu. Wskazane jest, aby 
firmware kamery umożliwiał regulację następujących parametrów: ekspozycja, 
wzmocnienie, nasilenie kolorów. Zalecane jest także wyłączenie wszelkich auto- 
matycznych funkcji poprawy obrazu, np. dynamicznej korekcji jasności, ponie- 
waż może to zakłócić pracę detektora skóry. 


6.3.2. Statyczny detektor skóry 


Metoda ta wykorzystuje przestrzeń barw HSV (ang. Hue Saturation Value). 
Jest to model przestrzeni barw zaproponowany w 1978 roku przez Alveya Raya 
Smitha. 

Model HSV nawiązuje do sposobu, w jakim widzi ludzki narząd wzroku, gdzie 
wszystkie barwy postrzegane są jako światło pochodzące z oświetlenia. Według 
tego modelu wszelkie barwy wywodzą się ze światła białego, gdzie część widma 
zostaje wchłonięta a część odbita od oświetlanych przedmiotów. 

Nazwa modelu to skrót od pierwszych liter nazw składowych opisu barwy: H — 
barwa światła (ang. Hue) wyrażona kątem na kole barw przyjmująca wartości od 
0° do 360”. Model jest rozpatrywany jako stożek, którego podstawą jest koło barw 
(rys.[6.3). Wymiary stozka opisuje sktadowa S- nasycenie koloru (ang. Saturation) 
jako promień podstawy oraz składowa V — (ang. Value) równoważna nazwie B- 
moc światła białego (ang. Brightness) jako wysokość stożka. 


Y 


Rys. 6.3: Stozek ila Aa barw HSV (Źródło: 


Ss > 


http: ee wikipedia.org/w/ 


Barwa skóry ludzkiej stanowi dość istotny czynnik. Powszechnie uważa sie, 
że ludzie różnych ras mają odmienny kolor skóry. Jednak udowodniono, że róż- 
nica tkwi w intensywności, a nie w barwie. Poprzez przejście do odpowiedniej 


96 


6.3. Oprogramowanie 


przestrzeni barw w której te dwie składowe są podane wprost można zniwelować 
różnice pomiędzy różnymi odcieniami skóry. 

Rozkład barwy skóry ludzkiej jest zależny od odpowiedniej reprezentacji, stąd 
też wybór właściwego modelu barw jest niezwykle istotny. Ostatecznie do repre- 
zentacji kolorów wybrano paletę barw HSV, ponieważ umożliwia ona redukcję 
wpływu oświetlenia oraz koloru karnacji podczas rozpoznawania skóry. 
Algorytm Zaimplementowany algorytm wykrywania skóry jest dość prosty. Wy- 
krywanie odbywa się poprzez filtrację pikseli o określonej wartości składowych H, 
SiV. Ich wartości są dobierane przez użytkownika każdorazowo po uruchomieniu 
programu. Pomimo swej prostoty metoda nie jest dostatecznie odporna. Wystar- 
czy, że na etapie ustalania progów zostanie uwzględniony jeden piksel, który nie 
odpowiada kolorowi skóry (artefakt na obrazie, zabrudzenie na dłoni) i podczas 
dalszego przetwarzania wszystkie piksele o takich samych parametrach, jak ten 
niechciany, zostaną sklasyfikowane jako poprawne i utrudnią lub uniemożliwią 
poprawną klasyfikację gestu. 


6.3.3. Adaptacyjny detektor skóry 


Nazwa modelu RGB powstała ze złożenia pierwszych liter nazw barw w nim 
uwzględnionych (rys.[6.4): R- czerwonej (ang. Red), G -zielonej (ang. Green) iB- 
niebieskiej (ang. Blue) . Jest to model wynikający z właściwości odbiorczych ludz- 
kiego oka, w którym wrażenie widzenia dowolnej barwy można wywołać przez 
zmieszanie w ustalonych proporcjach trzech wiązek światła o barwie czerwonej, 
zielonej i niebieskiej. 

Z połączenia barw RGB w dowolnych kombinacjach ilościowych można otrzy- 
mać szeroki zakres barw pochodnych. Do przestrzeni RGB ma zastosowanie syn- 
teza addytywna, w której wartości najniższe oznaczają barwę czarną, najwyższe 
zaś białą. Model RGB jest jednak modelem teoretycznym a jego odwzorowanie 
zależy od urządzenia (co po angielsku określa się jako device dependent). Ozna- 
cza to, że w każdym urządzeniu każda ze składowych RGB może posiadać nieco 
inną charakterystykę widmową, a co za tym idzie, każde z urządzeń może posia- 
dać własny zakres barw możliwych do uzyskania. 

W adaptacyjnym detektorze skóry wykorzystano znormalizowaną paletę RGB, 
dzięki czemu uzyskano odporność na zmienne warunki oświetleniowe, a także 
wyeliminowano cienie na obrazie. 


R G B 
podstawa=R+G+B, r=———, g=———,, re 
podstawa podstawa podstawa 


Dzięki zabiegowi normalizacji zmniejsza sie wymiar przestrzeni kolorów, po- 
nieważ b jest redundantny. Można go zapisać w postaci 


b=1-r-g 


Algorytm Działanie adaptacyjnego detektora skóry, [9], zasadniczo jest po- 
dobne do działania jego statycznego poprzednika. Detektor adaptacyjny ma jed- 
nak większą odporność na błędy związane z danymi wejściowymi do określenia 
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progów dla koloru skóry. Wiąże się to z charakterystyką jego działania. Nie trak- 
tuje on danych wejściowych indywidualnie tylko traktuje je jak pewien zbiór dla 
którego liczy wartość średnią oraz odchylenie standardowe. Tak otrzymane war- 
tości są wykorzystane do obliczenia poszczególnych progów dla klasyfikatora: 


lbr = 0.055+0.75(Rskin;s,— Rsking) 


ubp = —0.098+1.385(Rsking + Rsking) 
lbg = —0.597+2.857(Gskins,— Gsking) (6.1) 
ubg = —0.174+1.6(Gsking + Gsking) 

Ibpodstawa =  —45.26+0.79(Pskins,— Psking) 


gdzie, 

lbp,lbG,lbpodstawa — dolna granica przedziału (ang. lowerbound) dla koloru 
czerwonego, zielonego i podstawy (odpowiednio); ubz,ubc — górna granica 
przedziału (ang. upperbound) dla koloru czerwonego i zielonego (odpowied- 
nio); Rsking, Gsking,Psking, — wartości średnie składowej czerwonej, zielonej 
i podstawy (odpowiednio) dla próbki danych pochodzących z obszaru testowego; 
Rsking, Gsking, Bsking — odchylenie standardowe składowej czerwonej, zielo- 
nej i podstawy (odpowiednio) dla próbki danych pochodzących z obszaru testo- 
wego. 


6.3.4. Odejmowanie tła 


W tej metodzie obrazy reprezentowane są w 256 stopniowej skali szarości. 
Każdy piksel zawiera tylko jedną informację na temat swojej jasności. 
Algorytm Na początku użytkownik musi pobrać manualnie tło, które w kolej- 
nych iteracjach algorytmu jest odejmowane od każdej następnej klatki. Program 
umożliwia odejmowanie pobranego obrazu od tła, bądź tła od obrazu, w zależ- 
ności od tego czy tło jest jasne, czy ciemne. W efekcie otrzymywany jest obraz, na 
którym piksele o wartości różnej od 0 wskazują miejsca występowania różnic. 
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Kolejnym krokiem jest operacja progowania, dzięki której uzyskuje się binarną 
reprezentacje obiektów, które pojawiły się na danej klatce. 

Następnie obraz uzyskany z tej operacji poddaje się działaniu filtru mediano- 
wego, o możliwej do ustalenia wielkości okna. Pozwala to na usunięcie drobnych 
zakłóceń i wygładzenie kształtu dłoni. 


6.3.5. Wektor cech 


Jako wektor cech często wykorzystuje się momenty geometryczne zwykłe oraz 
centralne. Momenty centralne są odpowiednikami momentów zwykłych, jed- 
nakże odniesione są do środka sylwetki, dzięki czemu zyskują one niezależność 
od położenia. Moment geometryczny zwykły rzędu p + q, opisujący sylwetkę U, 
definiuje się następująco: 


M-1N-1 


Mpq= Y, Y rula yP y? (6.2) 
x=0 y-0 


gdzie: M, N — rozmiar obrazu: szerokośc, wysokość, x, y — współrzędne punktu 
na obrazie, y , — funkcja charakterystyczna sylwetki U. 
Podobną definicję posiada moment geometryczny centralny: 


M-1N-1 


npa= >, } xul% y(x- xs)P y- ys)! (6.3) 
x=0 y-0 


gdzie: M, N — rozmiar obrazu: szerokośc, wysokość, x, y — współrzędne punktu 
na obrazie, xs, ys — współrzędne środka obrazu, y — funkcja charakterystyczna 
sylwetki U. 

W przypadku momentów centralnych można także zdefiniować momenty 
centralne znormalizowane, które są niezależne od położenia oraz skali badanego 
obiektu: 


Hp,q E 
1 p,q = AD gdzie Y= 
Ho,o 
Istnieje także definicja momentów, które są niezależne od skali, przesunięcia 
oraz rotacji. Są to tzw. momenty Hu: 


prq 


> (6.4) 


h = 20 +N02 
b = (q20-No2)” + nu)” 
BB = (N30 -3m12)? + (3721 — 103)” 
h = (30 +M12)* + (921 +03)" 
Is = (930 —3112)(930 + M12) [(N30 + N12)" — 30721 + N03)*] + 
(3921 — Nos) (N21 + 703)130730 + 912)? — (921 + Nos)" (6.5) 
Ig = (20—1o2) [0730 + M12)* — (921 +108)7] + 411 (730 + 112) (21 + Nos) 


b = Gna —103)(M30 + M12) [0730 + 112)? — 3021 + 903)7] — 
(930 — 3912) (21 + 03)130730 + 912)? — (N21 + N03) 1 
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Rozważono dwie koncepcje kształtu wektora cech. Pierwsza z nich opiera się 
o momenty centralne znormalizowane, natomiast druga o momenty Hu. Do- 
datkowo wspólną cechą zawartą w obu wektorach jest współczynnik zwartości 
y= ma, gdzie A — pole powierzchni obszaru, P — obwód tego obszaru. 

Rozważając oba powyższe przypadki zdecydowano się na domyślne wykorzy- 
stanie momentów normalnych scentralizowanych. Postawiono hipotezę, że ich 
brak odporności na rotację umożliwi lepsze rozróżnienie próbek. Owo założenie 
okazało się słuszne. 


6.3.6. Klasyfikacja 


Do klasyfikacji gestów wykorzystano algorytm k najbliższych sąsiadów. Jest to 
jeden z algorytmów regresji nieparametrycznej używanych w statystyce do pro- 
gnozowania wartości pewnej zmiennej losowej. Może również być używany do 
klasyfikacji. Przyjęto też następujące założenia: 


e Dany jest zbiór uczący zawierający obserwacje z których każda ma przypisany 
wektor zmiennych objaśniających X1... X, oraz wartość zmiennej objaśnianej 
Y. 

e Dana jest obserwacja C z przypisanym wektorem zmiennych objaśniających 
X1... Xn dla której chcemy prognozować wartość zmiennej objaśnianej Y. 


W przypadku rozwiązywanego problemu, wektor X odnosi się to wektora cech 
uzyskanego przy pomocy ekstrakcji, a wektor Y reprezentuje klasy gestów (litery), 
które występują w programie. Algorytm polega na: 


1. porównaniu wartości zmiennych objaśniających dla obserwacji C z warto- 
ściami tych zmiennych dla każdej obserwacji w zbiorze uczącym, 

2. wyborze k (ustalona z góry liczba) najbliższych do C obserwacji ze zbioru 
uczącego, 

3. uśrednieniu wartości zmiennej objaśnianej dla wybranych obserwacji, w wy- 
niku czego uzyskujemy prognozę. 


Definicja najbliższych obserwacji w punkcie drugim sprowadza się do mini- 
malizacji pewnej metryki, mierzącej odległość pomiędzy wektorami zmiennych 
objaśniających dwóch obserwacji. Zwykle stosowana jest tu metryka euklidesowa 
lub metryka Mahalanobisa. Można również zamiast średniej arytmetycznej sto- 
sować np. medianę. 

Klasyfikator wymaga wcześniejszego uczenia. Do tego celu została wykorzy- 
stana biblioteka gestów, zawierająca ok. 100 zdjęć dla każdego ułożenia dłoni. 
Uczenie jest przeprowadzane przed każdym wykorzystaniem aplikacji, co po- 
zwala na łatwą zamianę bazy gestów lub wykorzystanie innego współczynnika 
k. Program po otrzymaniu serii uczącej analizuje te obrazy, dokonuje ekstrak- 
cji cech zgodnie z ustawieniami zadanymi przez użytkownika, a następnie na ich 
podstawie uczy klasyfikator. 

Wartą wspomnienia zaletą klasyfikatora k najbliższych sąsiadów jest jego od- 
porność na rozrzucone punkty należące do poszczególnej klasy. Punkty nie mu- 
szą znajdować się w jednym skupisku, jak w przypadku innych klasyfikatorów. 


100 


6.4. Badania i odbiór aplikacji 


Różne kształty dłoni i różne ułożenia światła mogą powodować wystąpienia wielu 
oddalonych od siebie grup punktów, każda symbolizująca tą samą klasę. Za- 
kładając, że te skupiska mają liczebność przynajmniej k, pozwalają one na po- 
prawną klasyfikację gestu nawet w przypadku, jeśli te grupy są rozłączne. 


6.3.7. Interfejs 


Wygląd okna stworzonej aplikacji został zaprezentowany na rys. oraz 
rys. Pokazano na nich zawartość dwóch zakładek: pierwsza dotyczy opcji 
segmentacji, natomiast druga - samego treningu i jego ustawień. Nazwy wszyst- 
kich elementów są intuicyjne, więc interfejs zostanie opisany zgrubnie. 

W oknie można wyróżnić jedną wspólną część (nr 1 na obu rysunkach). Za- 
wiera ona przyciski umożliwiające włączenie przechwytywania obrazów, trening 
klasyfikatora oraz tworzenie nowych zestawów danych uczących (patrz rozdział 
[6.5). Poniżej jest umiejscowiona konsola zwracająca parametry aktualnie zmie- 
niające się w systemie. Widoczny jest także podgląd obrazu z kamery oraz po- 
większonego obszaru zainteresowania (czerwona ramka na podglądzie). W tym 
miejscu można także wybrać metodę segmentacji obrazu. 

Na rysunku[6.5|jest pokazana zakładka z ustawieniami segmentacji. Obszar nr 
2 zawiera podgląd klasyfikatora HSV, poszczególnych wartości barwy, nasycenia 
i jasności. Przycisk Catch umożliwia pobranie próbki skóry, na podstawie któ- 
rej będzie się odbywała klasyfikacja. Jest ona pobierana z obszaru w niebieskiej 
ramce (jest ona umieszczona na podglądzie obrazu z kamery). 

W obszarze nr 3 jest zawarty podgląd adaptacyjnego detektora skóry. Przycisk 
Catch pełni taką samą funkcję jak w poprzednim klasyfikatorze. 

Ostatni, czwarty obszar z tej zakładki zawiera informacje na temat segmenta- 
cji z wykorzystaniem metody odejmowania tła. Kolejne okna podglądu pokazują 
różnice na obrazach, obraz wejściowy po binaryzacji oraz tło, które jest odejmo- 
wane. Przycisk Catch umożliwia przechwycenie tła. Dodatkowo można wybrać 
kierunek odejmowania obrazów. 

Na rysunku [6.6] pokazano, że na obszarze nr 5 dostępne są opcje związane 
z treningiem użytkownika. Może on wybrać rodzaj ćwiczenia, czas oczekiwania 
na gest, ilość gestów w sekwencji. Można także włączyć pokazywanie rezultatów 
klasyfikacji, wybrać rodzaj przechwycenia gestu — czy ma być pobrany na pod 
koniec czasu przeznaczonego na pokazanie gestu, czy szybciej. Ostatnia opcja 
umożliwia wybór kolejności pojawiających się liter pomiędzy rosnącą, a losową. 

Obszar nr 6 zawiera podgląd litery do pokazania, zdjęcia gestu, a także jego 
zbinaryzowaną wersję. 

Ostatni obszar nr 7 to prosta konsola tekstowa zwracająca użytkownikowi in- 
formację na temat klasyfikacji zamiganego gestu oraz statystykę skuteczności. 


6.4. Badania i odbiór aplikacji 


Aplikacja wywarła bardzo dobre wrażenie na osobach testujących. Aby spraw- 
dzić jak szybko przebiega proces uczenia przeprowadzono dwa eksperymenty na 
różnych osobach, nie mających wcześniej kontaktu ani z językiem migowym ani 
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a) Szatan 


Segmentation | Classfication | Run And Play 


SG [Original Image] 


rj | HSV Image 
| 

| | X 

| 

l 


[ Method Selection | 


new + convert: 0 
bgr to chromatic: 7 i 
Saving finished [Hand Regon | - it. 4 


min H: 0, SO, V: 21 3 j 1 
max H: 170, 5113, V: 53 É 7888 i * 1 
Preprocess Background Subraction Skin 


a9 Szatan 


es Segmentation | Classification | Run And Play 


== = Original image 


Time for gesture | | Number of Gestures | | Show results | | Capture Sequence 


Queny -> Response 


RP | | Pictures —> Letters 5sec O) Yes |@ During Nomal 
| Letters + Pictures -> Gestures 10sec @ Random 
button3 | | Letters -> Gestures @ 15sec inset number 
— e FreeRun 
Us fi 
smaile User nickname 
l Method Selection 
sebo | HSV Letter to show 
ASD 
new + convert: 0 © BS 
bgr to chromatic: 7 
Saving finished Hand Regon 
min H: 0, SO, V: 21 


max H: 0, SO, V: 45 


Proba nr: 5 
Poprawnych : 4 


DOBRZE! 


Rys. 6.6: Interfejs programu - zakładka Run And Play. 


alfabetem palcowym. Wykorzystano trzy metody: 1) Litera + Obrazek — Gest; 2) 
Litera — Gest; 3) Obrazek — Litera. 
Proces uczenia przebiegał następująco: 


konfiguracja aplikacji przez osobę z nią zaznajomioną, 

e wyjaśnienie celu ćwiczenia odbiorcy, 

e uruchomienie programu dla 20 losowych gestów i metody nr 1 — sesja trenin- 
gowa, 

e podczas interakcji z aplikacją osoba znająca aplikację pomagała osobie bada- 
nej w poprawnym ułożeniu dłoni, 

e uruchomienie dla 20 losowych gestów i metody nr 3 — test wprowadzający, 
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e ponowne uruchomienie metody nr 1, tym razem z gestami w kolejności alfabe- 
tycznej i szczególnym zwróceniu uwagi na gesty sprawiające trudność, 

e powtórzenie nauki liter opartej na metodzie nr 3 — test właściwy, 

e wyłączenie podpowiedzi — metoda nr 2 — test zaawansowany. 


Poniżej przedstawione są logi z nauczania, wskazana jest liczba poprawnych 
trafień i liczba prób dla każdej litery oraz wynik sumaryczny. 


2011-01-20 10:59:04 PicturesToGestures 20 20 

A BC DE G BE I KE L © P.O RU V WX r 
02 01 01 01 03 01 00 01 00 02 00 00 00 01 03 00 00 01 03 
02 01 01 01 03 01 00 01 00 02 00 00 00 01 03 00 00 01 03 


2011-01-20 11:03:58 PicturesToLetters 14 20 

A B C D E GH I K L O POR U VW X Y 
00 04 02 02 00 00 00 00 00 01 01 00 01 00 00 01 01 00 01 
00 04 02 02 01 00 02 00 00 01 01 00 01 00 00 01 01 03 01 


2011-01-20 11:10:02 PicturesToGestures 19 19 

A B C D E GH I K L O P Q R U VW XK Y 
01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 
01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 


© © 


2011-01-20 11:11:43 PicturesToLetters 20 20 

A B C D E GH I K L O POR U VW X Y 
01 00 00 02 01 01 02 01 01 01 00 03 00 00 02 00 00 01 04 
01 00 00 02 01 01 02 01 01 01 00 03 00 00 02 00 00 01 04 


2011-01-20 11:13:23 LettersToGestures 19 20 

A B C D E GH I K L O POR U VW X Y 
00 04 02 01 01 00 00 01 01 00 01 00 03 00 02 01 00 00 02 
00 04 02 02 01 00 00 01 01 00 01 00 03 00 02 01 00 00 02 


Pierwsza badana osoba po 15 minutach nauki była w stanie przejść test na 
poziomie zaawansowanym z 95% skutecznością. 


2011-01-20 11:01:23 PicturesToGestures 19 20 

A B C D E GH I K L O POR U VW X Y 
01 01 01 00 00 02 02 01 00 00 00 00 05 02 01 01 01 00 01 
01 01 01 01 00 02 02 01 00 00 00 00 05 02 01 01 01 00 01 


2011-01-20 11:08:07 PicturesToLetters 07 20 

A B C D E GH I K L O P © R U VW XK Y 
01 00 00 00 00 00 00 00 00 00 03 00 00 00 00 01 00 00 02 
01 02 00 01 02 00 01 00 00 00 03 02 03 02 00 01 00 00 02 
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2011-01-20 11:15:13 PicturesToGestures 19 19 

A B C D E GH I K L O POR U VW X Y 
01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 
01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 


2011-01-20 11:18:02 PicturesToLetters 13 20 

A. B € DF GH L KK W © PO RU VW X Y 
00 00 04 00 01 00 02 00 01 01 00 01 00 00 00 01 01 00 01 
00 00 04 00 02 00 03 00 01 01 00 02 02 00 02 01 01 00 01 


2011-01-20 11:20:13 LettersToGestures 18 20 

A B C D E GH I K L O P Q R U VW X Y 
02 01 01 01 00 01 00 01 00 03 02 02 01 01 01 00 00 00 01 
02 01 01 01 01 01 01 01 00 03 02 02 01 01 01 00 00 00 01 


Druga osoba miata poczatkowe problemy ze skojarzeniem gestu z konkretna 
litera, mimo to nauka przebiegata równie szybko. Po 20 minutach test zaawanso- 
wany zaliczyła z 90% skutecznością. Zauważono problemy w kojarzeniu obrazu 
gestu z literą, pomimo, że ćwiczenie w stronę litera — gest, przebiegło bardzo do- 
brze. 

Autorzy aplikacji są pozytywnie zaskoczeni szybkością i skutecznością na- 
uczania aplikacji, nie spodziewano się tak dobrych wyników w tak krótkim czasie. 


6.5. Definiowanie własnych gestów 


W prosty sposób można nauczyć klasyfikator rozpoznawania nowych gestów. 
W tym celu należy podmienić predefiniowane gesty na inne. Algorytm postę- 
powania jest następujący: w polu tekstowym na przycisku Save file trzeba wpi- 
sać numer klasy, jaki będzie reprezentowany przez zarejestrowane próbki, na- 
stępnie umieścić dłoń w regionie zainteresowania (czerwony prostokąt na obra- 
zie z kamery) i powyższym przyciskiem uruchomić akwizycję obrazu. Program 
przechwyci serię obrazów, które zostanę wykorzystane do nauki klasyfikatora. Po 
ukończeniu tego zadania należy wykonać zdjęcie nowego gestu, które będzie wy- 
świetlane podczas nauki jako wzór. W tym celu trzeba kliknąć przycisk Snapshot 
(z ręką w rejonie zainteresowania). Następnie należy udać się do folderu NewTra- 
ining znajdującego się w folderze z aplikacją. Kolejnym krokiem jest odszukanie 
pliku base. txt i zmieniana w bazie zapytań litery skojarzonej z danym gestem na 
nową. Po ponownym uruchomieniu aplikacji gest będzie już dostępny do nauki. 


6.6. Możliwe kierunki rozwoju 

Wygląd skóry na różnych obrazach może być zupełnie różny. Jednym z naj- 
bardziej znaczących czynników wpływających na to są warunki oświetlenia 
sceny. Aby zmniejszyć ilość błędów identyfikacji ze względu na powyższy czyn- 
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nik, są prowadzone badania nad algorytmami umożliwiającymi wyeliminowanie 
wpływu światła lub jego znormalizowanie. Jedno z efektywnych rozwiązań jest 
opisane w [10]. Jego implementacja poprawiłaby jakość działania aplikacji. 

Aplikacja jest otwarta na wszelkie zmiany bazy gestów. Jest przygotowana do 
implementacji jednoczesnej obsługi różnych baz. Oprogramowanie może stano- 
wić bibliotekę rozpoznającą gesty, udostępniającą swoje funkcje innym aplika- 
cjom. Skojarzenie gestów z akcjami klawiatury, czy ruchami i przyciskami myszki 
może stanowić nietypowe i alternatywne sterowanie komputerem. 
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ROZDZIAL 


GESTY MARSZAŁKA 
K. Cisek, M. Szlosek 


7.1. Wstęp 


Jednym ze sposobów komunikacji międzyludzkiej jest posługiwanie się ge- 
stami - lokalnie jednoznacznymi wizyjnymi komunikatami niewerbalnymi. Ge- 
sty pozwalają na wymianę informacji tam, gdzie komunikacja werbalna zawodzi 
lub jest niepożądana ze względu na fakt rozchodzenia się fali dźwiękowej albo 
innych powodów. Prawdopodobnie największą grupę społeczną stosującą ko- 
munikację niewerbalną na co dzień stanowią osoby, które utraciły możliwość po- 
sługiwania się aparatem mowy. Języki oparte na gestach, używane przez osoby 
niepełnosprawne, nazywane są migowymi oraz miganymi. Migowy jest rodzajem 
gestów pokazującym całe słowa albo krótkie wyrażenia, a migany jest systemem 
pokazywania pojedynczych liter bądź zgłosek. Co ciekawe, i nielogiczne, języki 
migowe i migane nie są językami międzynarodowymi. Specyficzną grupą użyt- 
kowników gestów są ludzie o profesjach, w których potrzebna jest szybka, sku- 
teczna, jednoznaczna oraz niewymagająca specjalistycznego sprzętu komunika- 
cja. Przykładowymi grupami zawodowymi posługującymi się gestami są: specja- 
liści sterujący programami/maszynami/systemami, żołnierze, płetwonurkowie, 
pracownicy wysokościowi, pracownicy kolei, sędziowie sportowi, organizatorzy 
oraz uczestnicy zawodów sportowych, żeglarze, marszałkowie. 

Marszałek (od ang. Marshal’s Hand Signals lub Aircraft Marshalling) jest 
członkiem personelu lotniczego odpowiedzialnym za kierowanie ruchem po pły- 
cie lotniska/lotniskowca, który nawiązuje bezpośredni kontakt wzrokowy z pilo- 
tem statku powietrznego. Marszałek może również dawać wskazówki pilotowi do 
lądowania oraz startu w przypadku, gdy statek powietrzny jest przystosowany do 
pionowego startu lub/i lądowania (śmigłowce, wiatrakowce, niektóre samoloty). 
Osoba taka pracuje najczęściej na cywilnych lotniskach kontrolowanych oraz na 
wojskowych lotniskach, lądowiskach oraz lotniskowcach. 

W niniejszym rozdziale opisano sposób implementacji systemu rozpoznawa- 
nia gestów marszałka. Pomysł podjęcia takiego tematu ma ciekawą genezę. Je- 
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den z autorów ! podczas podstawowego szkolenia samolotowego na lotnisku Po- 
znań Ławica zetknął się z koniecznością rozpoznawania takich gestów. Stało się 
to inspiracją do opracowania założeń narzędzia programowego wspomagającego 
proces szkolenia. W założeniach system ten miał rozpoznawać sfilmowane gesty 
i porównywać je ze wzorcem. Finalne rozwiązanie, opisane w dalszej części roz- 
działu, zrealizowano korzystając z algorytmu SVN. Za wyborem tego algorytmu 
przemawiały jego właściwości oraz natura badanego problemu. Okazało się, że 
odczyty sensoryczne można przedstawić w przestrzeni stuwymiarowej, w której 
SVN radzi sobie bardzo dobrze. Ponadto zadowalające wyniki z SVN można osią- 
gnąć w stosunkowo szybkim czasie, przy dość prostej implementacji i sposobie 
uczenia. 


7.2. Podstawy teoretyczne 


Mimo upływu lat klawiatura i myszka pozostają wciąż podstawowymi urzą- 
dzeniami wejściowymi w komunikacji człowiek-komputer. Nie są to jednak je- 
dyne urządzenie służące do przekazywania poleceń/danych. Wraz z rozwojem 
technologii pojawiły się kolejne rozwiązania, jak np.: ekrany dotykowe, kamery, 
czujniki przyśpieszenia/prędkości/położenia. Obecnie można sobie wyobrazić 
rozwiązanie, w którym człowiek za pomocą samych tylko gestów byłby w stanie 
sterować maszyną, np. bezzałogową koparką albo quadrocopterem. Wystarczy, 
aby maszyna była wyposażona w kamery rejestrujące gesty oraz komputer prze- 
twarzający obrazy z kamer i wyznaczający sterowania. Wiąże się to oczywiście 
z budową systemu wizyjnego, implementacją algorytmów do przetwarzania ob- 
razów itp. 

W prostym przypadku rozpoznawanie gestów może polegać na śledzeniu po- 
łożenia znaczników na sekwencji obrazów przechwyconych przez kamery oraz 
interpretacji zaobserwowanych przemieszczeń. Znacznikami mogą być: kolo- 
nego i inne elementy fizycznie związane z obserwowanym obiektem. 

Jednym z urządzeń, które na swoim pokładzie gromadzi kilka różnych czujni- 
ków, jest Wii Remote firmy Nintendo. W urządzeniu tym zamontowano kamerę 
podczerwieni, czyjnik ruchu, przyciski. Choć zaprojektowano je do celów roz- 
rywkowych, jednak z powodzeniem można je wykorzystać do budowy systemu 
rozpoznawania gestów. 


7.2.1. Formalne definicje oraz standardy opisujące gesty marszałka 


Istnieje około 68 [1] gestów marszałka, przy czym mogą to być gesty statyczne 
(ustalona pozycja) oraz dynamiczne (sekwencja ruchów). Gesty są standardowe 
dla wielu organizacji zrzeszających różne typy lotnictwa: 


¢ North Atlantic Treaty Organization (NATO) 
Air Standardization Coordinating Committee 
e International Civil Aviation Organization (ICAO) [2] str. 26] 


LKrzysztof Cisek, instruktor pilot szybowcowy 
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e Federal Aviation Administration (FAA) 


W ciągu dnia gesty najczęściej wykonywane są za pomocą rąk. W nocy lub przy 
ograniczonej widzialności taka praktyka jest nieskuteczna, w związku z czym sto- 
suje się specjalne podłużne lampy informacyjne. 

Marszałek podczas wydawania poleceń za pomocą gestów powinien stać twa- 
rzą do statku powietrznego w jednej z dwóch pozycji: 


e Dla statków powietrznych o stałym płacie (np. samoloty) marszałek powinien 
znajdować się z przodu po lewej stronie patrząc od strony pilota maszyny, tak 
aby te dwie osoby się widziały wzajemnie. 

e Dla śmigłowców, marszałek powinien się znajdować z przodu maszyny patrząc 
od strony pilota. 


Marszałek posługuje się w nocy jednokolorowymi podłużnymi lampami. 
W momencie kołowanie w przypadku awarii jednej lub obu takich lamp, pilot 
statku powietrznego ma obowiązek zatrzymania się. Przykładowe gesty przed- 


stawiono na rys.[7.1|i rys.[7.2] 
7.2.2. Metody rozpoznawanie gestów 


Rozpoznawanie gestów jest znanym tematem badań naukowych. Poniżej 
przedstawiono wybrane prace z tego obszaru, zawierające pomysły wykorzysta- 
nia automatycznej segmentacji i generowania modeli potrzebnych do przepro- 
wadzenia poprawnej klasyfikacji gestów. 

W [7] zaprezentowano sposób automatycznej segmentacji i klasyfikacji cią- 
głych obserwacji gestów. Autorzy sprowadzili problem do tego, iż podobnie jak 
w mowie, ruch dłoni podzielili na „fonemy”. Przestrzeń gestów była zbiorem 
gaussianów, gdzie każdy ruch był połączony z odpowiednim gestem. Rozłoże- 
nie gaussianów zdeterminowane było zastosowaniem standardowego algorytmu 
maksymalizacji wartości oczekiwanej (ang. Expectation-Maximization, EM), a 
ich ilość wyznaczana była za pomocą algorytmu minimalnej długości opisu 
(ang. Minimum Description Length, MDL). Autorzy [4] opisali metodę rozpozna- 
wanie gestów amerykańskiego języka migowego (ang. American Sign Language, 
ASL). Rozłożyli ASL na sekwencje ruchów i stałych pozycji dłoni, które traktowali 
jako pojedyncze „fonemy”. Ucząc system oparty na ukrytych modelach Markova 
(ang. Hidden Markov Models, HMM) starali się uzyskiwać pojedyncze fonemy za- 
miast całych sekwencji ruchu. W opisano sposób akwizycji statystycznych 
modeli dla strukturalnie i semantycznie bogatych zachowań. Działania były za- 
modelowane jako sekwencje cząstkowych komponentów z wykorzystaniem mo- 
deli Markova o zmiennych długościach kontrolujących wysokopoziomową struk- 
turę. Cząstkowe zachowania były widziane jako prototypowe sekwencje pomię- 
dzy dwoma kluczowymi prototypami, które z kolei były identyfikowane jako pro- 
totypy z sekwencji, gdzie zmiany występowały poniżej wartości progowej. Me- 
toda ta może być wykorzystana do generowania i predykcji realistycznych za- 
chowań ludzkich, lecz nie mogły generalizować przypadków wcześniej niezna- 
nych. W [6] zaprezentowano metodę automatycznej akwizycji danych na podsta- 
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Rys. 7.1: Znaczenie gest6w:,,Kotuj do następnego marszatka/ przejdź na kontrolę 
przez wieżę/przejdź na kontrolę przez służbę naziemną”, „Identyfikacja bramy” - 
marszałek pokazuje którą drogą kołowania należy się przemieszczać, „Kołuj do 
przodu”, „Kołuj w lewo”, „Normalne hamowanie”, „Hamowanie awaryjne” [3] roz. 
6]. 


wie statystycznego zachowania modelu z ciągłych obserwacji długich sekwencji 
obrazów. Metodę oceny i klasyfikacji zachowania oparto o statystyczny opis na- 
tury owych modeli. Autor innego podejścia [8] zaproponował wykorzystanie sieci 
neuronowych. Testując trzy typy sieci uzyskał on zadowalające wyniki, przy czym 
najlepsze dla sieci ze sprzężeniami zwrotnymi. Jej odpowiednio dobrana archi- 
tektura zapewniała uzyskanie 5% poziomu błędnej klasyfikacji. 


7.2.3. Klasyfikacja z wykorzystaniem sztucznych sieci neuronowych 


W dziedzinie rozpoznawania przestrzennych wzorców za pomocą sztucznych 
sieci neuronowych (ANN) dokonała się znaczna poprawa jakości otrzymywanych 
wyników. W zwykłych przestrzennych ANN wzorcem zazwyczaj jest dwuwymia- 
rowa tablica danych (tablica 2D zamieniana jest na wektor jednowymiarowy). 
Tego typu sieci dobrze sprawdziły się w rozpoznawaniu pisma ręcznego, twarzy 
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Pa 


TA 


BRAKE 


Rys. 7.2: Znaczenie gestów: „Podstawki wsunięte”, „Włączaj wybrane silniki”, 
„Wyłącz silniki”, „Zwalniaj silnikiem z wskazywanej strony”, „Sygnał dla śmi- 
głowca - przemieszczaj się w prawo w płaszczyźnie horyzontalnej”, „Pożar silni- 


ka/hamulców” {3} roz.6]. 


i innych, dwuwymiarowych obiektów. Przestrzenne sieci cechuje to, że niezależ- 
nie od ilości wewnętrznych połączeń, zawsze istnieje jedna tablica o zadanym 
wymiarze, definiująca wejście. 

Do wykrywania obiektów zmiennych w czasie potrzeba jednak sieci wrażli- 
wych na dynamicznie zmieniające się sygnały wejściowe. Autor [8] zaproponował 
trzy modele ANN, które choć bazują na statycznym modelu, działają na czasowo 
zmiennych sygnałach wejściowych. Najlepszym uzyskanym przez niego mode- 
lem sieci, przewidującym następny krok w sekwencji, okazał się model z jedną 
warstwą podłączoną rekurencyjnie ze sobą. Architektura ta powoduje „stabilizo- 
wanie” sie warstwy na jakimś poziomie i swoiste zapamiętywania stanów, dzięki 
czemu sieć jest bardziej wrażliwa na zmiany w neuronach wejściowych. 

Klasyfikowanie gestów można zrealizować na podobnej zasadzie. Zadanie po- 
lega wtedy na porównywaniu wyjścia z pojedynczej sieci z następnym napływa- 
jącym wektorem. Licząc błędy pomiędzy tymi wektorami i je sumując otrzymuje 
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się jakość klasyfikacji danego gestu. Liczba wyuczonych sieci byłaby równa licz- 
bie gestów, które należy klasyfikować. W problemie zdefiniowanym przez auto- 
rów niniejszej pracy pozyskiwane są dane o położeniu 4 punktów na płaszczyźnie 
2D wraz ze stemplem czasu. Dlatego, idąc za powyższą propozycją, architektura 
sztucznej sieci neuronowej mogłaby wyglądać następująco: 9x9x4x8 (kolejne 
liczby to, odpowiednio, ilość neuronów warstwy wejściowej, warstwy rekurencyj- 
nej, warstwy ukrytej oraz warstwy wyjściowej). Jednak zastosowanie takiego roz- 
wiązania sprawia trudności w realizacji algorytmu wstecznej propagacji błędów, 
odpowiedzialnego za dobre nauczenie sieci. Mozer [9] nazwał warstwę rekuren- 
cyjną warstwą kontekstową (ang. context layer) i zaproponował zmodyfikowany 
algorytm uaktualniania wag w warstwie kontekstowej. Stwierdził on, że gdy inne 
rekurencyjne metody przetrzymują pojedynczy stan poprzedni, warstwy kontek- 
stowe przechowują dynamiczną reprezentację przeszłości, skutecznie skupiając 
propagację błędów z „przeszłości” przechowywanej w poprzednich stanach. 

Alternatywnym sposobem radzenia sobie z predykcją wejścia oraz klasyfikacją 
gestów jest zastosowanie czasowo-opóźnionej sieci neuronowej (ang. Time Delay 
Neural Network, TDNN). TDNN, poprzez przesunięcie w czasie ramki zawierają- 
cej wektor stanu, stara się obliczyć następny przewidywany wektor. Poglądowy 
schemat działania TDNN pokazano na rys.[7.3] 

W przypadku wystąpienia problemów z działaniem sieci neuronowych, dane 
napływające z sensorów należy przekształcić do innej postaci. Metodami prze- 
kształcającymi wektor danych wejściowych są m.in. redukcja ilości zmiennych, 
zmniejszenie wymiarowości wektorów, klasteryzacja poszczególnych punktów 
w przestrzeni 2D. 


7.2.4. Klasyfikacja z wykorzystaniem SVM 


W ostatnich latach dość znacząco rozwinęły się różne algorytmy i metody 
klasyfikacji, które nadają się do wykorzystania podczas klasyfikacji gestów mar- 
szałka. Stosunkowo prosty w implementacji jest algorytm SVM (ang. Support Vec- 
tor Machines) polegający na klasteryzowaniu danych uczących i oddzielaniu ich 
od siebie hiperpłaszczyznami, separującymi klasy z jak największym margine- 
sem. 


Podstawy formalne 


W najprostszym przypadku klasyfikacja algorytmem SVM polega na znalezie- 
niu równania hiperpłaszczyzny rozdzielającej punkty z różnych klas (należące do 
zbioru treningowego) z maksymalnym marginesem oraz użyciu tego równania 
jako funkcji decyzyjnej przy klasyfikacji kolejnych punktów (spoza zbioru trenin- 
gowego). Ten prosty, opisany niżej przypadek (tylko dwie klasy) można rozsze- 
rzyć na większą ilość klas (zobacz rys.[7.4). 

Formalnie zbiór danych treningowych D zawierający n wektorów należących 
do dwóch różnych klas można zapisać w postaci: 


n 


D= ESR) |X; € RP, yi €{-l, Hha 
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Rys. 7. 3: Schemat działania czasowo- opóźnionej sieci neuronowej (wglhttp: //] 
: . : lish. 


gdzie: x; jest p-wymiarowym wektorem, zaś y; określa klasę, do której ten wektor 
należy. 

Każda hiperpłaszczyzna może być zapisana jako zbiór punktów x spełniają- 
cych równanie w: x — b = 0, gdzie : oznacza iloczyn skalarny, zaś wektor w to wek- 
torem normalnym do hiperpłaszczyny. Parametr I określa przesunięcie margi- 
nesu hiperpłaszczyzny wzdłuż wektora normalnego w. 

W algorytmie SVN chodzi o znalezienie takich w i b, aby maksymalizować 
margines lub odległość pomiędzy równoległymi hiperpłaszczyznami (czyli płasz- 
czyzn, które są najdalej od siebie, a jednocześnie oddzielają dane). Te hiperpłasz- 
czyzny można opisać za pomocą równań: 


w:x-b=l, w-x-b=-1 


Należy zauważyć, że jeśli dane treningowe są separowalne, to można tak wy- 
brać równoległe hiperpłaszczyzny, aby nie było punktów pomiędzy nimi, a na- 
stępnie starać się maksymalizować ich odległości. Odległość pomiędzy dwoma 
hiperpłaszczyznami wynosi Twi? więc należy maksymalizować ||w||. Równocze- 
śnie należy zapobiec „wpadaniu” punktów do marginesu, dodając następujące 
ograniczenia 


w:x;-b> 1 dla x; z pierwszej klasy, w:x;—b<—1 dla x; z drugiej. 
To może być zapisane jako: 
yi (w: x; — b) > 1 dla wszystkich 1 < i < n 
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Rys. 7.4: SVM z dwoma klasami (dane leżące na marginesie nazywają się wekto- 
rami wspomagającymi). 


Można to zapisać jako problem optymalizacji w postaci: 


miniwi pod warunkiem (Vi=1,...,n): y¡(w-x¡-b)>1. 
w, 


Rozwiązanie problemu optymalizacji 


Problem optymalizacji SVM jest trudny do rozwiązywania, gdyż zależy od |wll, 
co wymaga pierwiastka kwadratowego. Na szczęście możliwe jest podstawienie 
za ||w|| wartości zw]? (czynnik 5 jest uzyty dla wygody liczenia) bez zmiany fi- 
nalnego rozwiązania (minimum oryginalnego i zmodyfikowanego równania ma 
te same wi b). Rozwiązanie sprowadza się do minimalizacji 5 Iwl? mając na uwa- 
dze, ze y;j(w:x;—b)>ldlaVi=1,...,n. Można to zapisać w postaci równania: 


1 n 
min max+ — |wilż — > a; |yi(w:x;—b)-1] 
w,b a 2 i=l 
co oznacza, że szukamy punktu siodłowego. Czyniąc w ten sposób wszystkie 
punkty, które mogą być wydzielone przez y; (w: x; — b) — 1 > 0 nie mają znaczenia, 


gdyż musimy ustawić odpowiadające a; na zero. Rozwiązanie może być opisane 
przez liniową kombinację wektorów uczących: 


n 
w= 3 QiyiXi 


Tyko nieliczne a; będą większe od zera. Odpowiadające mu x; są właśnie wekto- 
rami wspomagającymi (ang. support vectors), które leżą na marginesie i spełniają 
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yi(w: x; — b) = 1. Stąd wynika, ze wektory wspomagające również spełniają 
W-x¡—b=1/y;¡=y¡ + b=W-x;¡- yi 


co pozwala nam określić przesunięcie b. 


gdzie Nsy to ilość wektorów wspomagających. 


Klasyfikacja nieliniowa 


W roku 1992 Boser, Guyon i Vapnik, autorzy [10], zaproponowali metodę stwo- 
rzenia nieliniowego klasyfikatora poprzez zastosowanie „sztuczki kernela” w celu 
zwiększenia marginesów hiperpłaszczyzn (pierwotnie proponowana przez Aizer- 
mana [11]). W rezultacie algorytm działa podobnie, z wyjątkiem tego, że każda 
operacja iloczynu skalarnego zastępowana jest przez nieliniową funkcję ker- 
nela. To pozwala algorytmowi zwiększyć margines pomiędzy hiperpłaszczy- 
znami w transformowanej przestrzeni cech. Przykładowo, jeśli użytym kernelem 
jest Gaussian, odpowiadającą przestrzenią cech jest przestrzeń Hilberta. Kernel 
Gaussiana ma postać: 


k(x; xj) = exp (-yllxi — xl”) 
dla y > 0 czasami parametryzowane przez y = ra 


7.3. Praktyczna realizacja 


Część systemu odpowiedzialna za zbieranie danych z czujników powinna 
gwarantować pełną obsługę błędów i wyświetlanie danych w celach debugowa- 
nia. Następna część systemu odpowiedzialna za rozróżnianie gestów powinna 
być wyposażona w bazę wiedzy, na podstawie której będzie w stanie rozróżnić 
gesty. Taka baza wiedzy może powstać w procesie „nauczenia” odpowiednich 
gestów. W tym celu można wykorzystać sieć neuronową bądź odpowiedni kla- 
syfikator. Podczas tworzenia bazy wiedzy należy zwrócić uwagę na różnorodne 
warunki w jakich system będzie musiał działać. W przypadku systemów wizyj- 
nych może pojawić się wiele różnych utrudnień, takich jak: zmienne oświetlenie, 
zmienne tło, zmienna odległość od znaczników, zakłócenia od innych znacznikó- 
w/źródeł światła, drgania systemu wizyjnego/kamery. W przypadku kamer pod- 
czerwonych zakłócenia są podobne, lecz poprzez zastosowanie filtracji na światło 
podczerwone, system może być bardziej odporny niż system wizyjny w pewnych 
przypadkach oświetleniowych. 
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7.3.1. Dlaczego Wiimote? 


Wii Remote, bo tak naprawde nazywa sie to urzadzenie, jest jednym z naj- 
chętniej wykorzystywanych kontrolerów gier konsolowych na świecie (zobacz 
rys. [7.5). Wiimote jest nazwa nadana przez ogromna rzesze uzytkowników kon- 
soli Nintendo Wii - konsoli, do której Wii Remote został stworzony. Wiimote zo- 
stał zaprezentowany na Tokyo Game Show w październiku 2005 roku. Od tamtej 
pory nastąpił gwałtowny wzrost zainteresowanie możliwościami tego urządzenia. 
Powodem takiej sytuacji był ruch|http: //wiibrew.com[12] stosujący metody in- 
żynierii odwrotnej w stosunku do konsol Wii oraz jej osprzętu. Opisywane urzą- 
dzenie z rodziny Nintendo okazało się być bardzo przyjemne do obsługi dzięki 
wykorzystaniu protokołu komunikacyjnego HID (ang. Human Interface Device) 
Bluetooth, który jest standardowym protokołem dla wielu urządzeń. Dzięki temu 
też powstała duża ilość oprogramowania (ang. third-party use), która wykorzysty- 
wała m.in. Wii Remote w sposób jaki nie przewidział tego producent. 


Rys. 7.5: Wii Remote firmy Nintendo. 


W skład komponentów pilota Wiimote wchodzą (zobacz rys.[7.6): 


e jedenaście przycisków typu pushbutton, 

e interfejs bezprzewodowy Bluetooth firmy Broadcom BCM2042, 
pamięć EEPROM 16kB, 

akcelerometr trzyosiowy ADXL330 firmy Analog Devices, 

e kamera podczerwieni, 

e cztery niebieskie diody led, 

silnik wibracyjny, 

e głośnik, 

złącze do dodatkowych urządzeń. 
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Rys. 7.6: Widok płytki Wii Remote od strony układów. 


Kamera podczerwieni 


Kamera podczerwieni zainstalowana w Wii Remote jest najcenniejszym ele- 
mentem. To właśnie za pomocą tej kamery w projekcie zbierano dane do klasy- 
fikacji. Kamera posiada matrycę monochromatyczną o rozmiarze 128x96 oraz 
sprzętowe wstępne przetwarzanie obrazu polegające na wykrywaniu czterech 
przemieszczających się punktów podczerwieni. Kamera jest umieszczona za 
plastikowym filtrem podczerwonym (z testów empirycznych wynika, że najle- 
piej przepuszcza fale długości 940nm). Wbudowany mikroprocesor wykorzystuje 
ośmiokrotną subpikselizację obrazu, dzięki czemu wyjściową rozdzielczością jest 
1024x768. Układ kamery jest wzbudzany 24MHz rezonatorem. Czujnik podczer- 
wieni dostępny w Wiimote ma dość wąski zakres efektywnej pracy - jest to 33° 
w płaszczyźnie horyzontalnej oraz 23° w płaszczyźnie pionowej. Kamera podaje 
również wielkość punktu podczerwieni w trybie extended oraz ramę widzialności 
w trybie full. 


Rys. 7.7: Kamera podczerwieni znajdującą się w Wii Remote. 
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Najsłynniejszy projekt z wykorzystaniem kamery IR - Wiimote Whiteboard 


Jednym z projektów wykorzystujących Wii Remote, który zdobył wysokie 
uznanie, jest projekt interaktywnej tablicy wykonany przez Johna Lee . W pro- 
jekcie wykorzystano Wii Remote oraz obraz wysyłany z komputera na ekran mo- 
nitora lub ekran rzutnika. Po wstępnej kalibracji czterech punktów na wyświetla- 
nym obrazie, możliwe jest używanie źródła podczerwieni jako myszki w systemie 
Windows. Kamera podczerwona musi być skierowana na wyświetlany obraz. Po- 
dobne aplikacje istnieją dla systemów linuxowych. Projekt Johnna Lee był pre- 
zentowany na prestiżowej konferencji TED. 


7.3.2. Biblioteki służące do obsługi urządzeń Wiimote 
CWidd 


Biblioteka CWiid[14], napisana w C, jest kolekcją narzędzi wspomagających 
tworzenie programów z wykorzystaniem kontrolerów Nintendo. Biblioteka zo- 
stała stworzona na platformę Linux, w szczególności istnieją jej dystrybucje Ar- 
chLinux, Debiana oraz Gentoo. O popularności omawianej biblioteki świadczy 
chociażby obecność w oficjalnych repozytoriach Ubuntu 10.10. Biblioteka składa 
się z czterech istotnych komponentów: 


e libcwiid - pełne API, 

e wminput - sterownik zdarzeń, 

e wmgui - interfejs testowy, 

° wmdemo - program demonstracyjny. 


Twórcy CWiid są aktywni, wciąż zmieniają swoje dzieło i je aktualizują. Mimo 
tej aktywności dostępna dokumentacja jest mało przejrzysta i wdrożenie się w nią 
w krótkim czasie jest umiarkowanie trudne. Z powodu dokumentacji właśnie 
biblioteka CWiid nie została wykorzystana podczas tworzenia systemu Gestów 
Marszałka. 


Wiimotedev Project 


Trudności związane z użytkowaniem biblioteki CWiid stara się niwelować po- 
przez tworzenie nakładek. W efekcie powstają projekty ułatwiające użytkowanie 
CWiid, mające charakter „biblioteki do biblioteki”. Takim projektem jest Wiimo- 
tedev Poject[15] stworzony przez Barłomieja Burdukiewicza. Omawiana biblio- 
teka korzysta z CWiid, jest napisana w QT4 oraz bardzo dobrze kompiluje się 
pod systemami linuxopodobnymi. Została stworzony, aby programiści, chcący 
tworzyć programy z wykorzystaniem Wii Remote, mieli łatwy i pewny dostęp do 
tego urządzenia. Największą zaletą jest odwoływanie się do urządzenia poprzez 
„szynę” qdbusviewer z QT4. Biblioteka Wiimotedev składa się z pięciu części: 


e wiimotedev-daemon - usługa systemowa działająca w tle, 

e wiimote-register - program odpowiedzialny za połączenie z wii, 

e wiimotedev-client - program kliencki do wi imotedev-daemon, 

e wiimotedev-toolkit - program kontrolno-testowy urządzeń oraz biblioteki, 
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e wiimotedev-car-example - program demonstracyjny biblioteki. 


W odróżnieniu do CWidd, projekt jest bardzo dobrze udokumentowany. Mimo to 
biblioteka nie została użyta w implementacji systemu Gestów Marszałka. Powo- 
dem były problemy z uruchomieniem wymaganych modułów Wiimota oraz sta- 
bilności działania. Wiimotedev Project jest obiecującym oprogramowanie, które 
jest rozwijane, warto skorzystać z niego w przyszłości, w połączeniu z programem 
pisanym w Qt4. 


Wii Device Library 


Ciekawą biblioteką napisaną w dość nowoczesnym („automagicznym”) ję- 
zyku C# jest Wii Device Library [16]. Biblioteka jest międzyplatformowa, lecz wy- 
wodzi się z innego projektu napisanego w .NET (WiimoteLib [17]). Pozycja jest 
godna uwagi ze względu na przejrzystość działania oraz szeroką multiplatformo- 
wość oraz współpracę z różnorodnymi sterownikami interfejsu bluetooth. 


wiiuse 
Ostatnią biblioteką, którą rozważano do implementacji systemu Gestów Mar- 
szałka, była wiiuse [18]. Spośród wszystkich wypróbowanych bibliotek, wiiuse 
okazało się być najprzyjemniejsze w użytkowaniu. Biblioteka jest napisana w C, 
dzięki temu jest jasna i zrozumiała. Wiiuse działa zarówno pod systemami MS 
Windows do Visty włącznie oraz pod systemami linuxopodobnymi. Omawiany 
projekt posiada bardzo dobrą dokumentację, dzięki której można szybko i spraw- 
nie uruchomić potrzebne moduły. Instalacja biblioteki sprowadza się do wydania 
poleceń: 
$ make 
$ sudo make install 
Skrypt ten kompiluje i instaluje całą potrzebną bibliotekę w systemie linux. 
Aby móc korzystać z wszystkich możliwości biblioteki we własnym projekcie na- 
leży w kodzie dołączyć nagłówek wiiuse.h (i odpowiednio zlinkować kompila- 
cję). 


7.3.3. Obsługa sprzętowo-programistyczna 


Poniżej przedstawiono praktyczne porady dotyczące uruchomienia systemu 
powstałego w ramach projektu Gestów Marszałka. 


Jak uruchomić Wiimota? 


Aby połączyć się z urządzeniem Wii Remote pod systemem linux należy po- 
siadać interfejs bluetooth zarówno w postaci fizycznej jaki i programowej (dla li- 
nuxa będą to biblioteki bluetooth oraz bluez, w szczególności dla Ubuntu 10.10 
znajdują się one w Synapticu). Urządzenie bluetooth należy fizycznie włączyć, 
poczekać około jednej minuty, aż system uruchomi całą jego obsługę. Następnie 
należy uruchomić kontroler wiimote (potrzebne do tego są dwie baterie AA lub 
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zasilacz z krokodylkami dajacy napiecie 3V). Po dostarczeniu zasilenia najlepiej 
jest włączyć synchronizację Wiimota naciskając czerwony przycisk znajdujący sie 
w komorze na baterie. Po wciśnięciu owego przycisku powinny zacząć mrugać 
wszystkie cztery diody urządzenia (mruganie to oznacza gotowość Wiimota na 
synchronizację z komputerem). Od tego momentu na połączenie się z Wii Re- 
mote pozostanie ok. 30 sekund. 

Aby dokonać testowego połączenia należy uruchomić w konsoli program 
wiiuse-example. Jeśli komputer połączy się z Wiimote, powinna zapalić się 
na stałe pierwsza dioda oraz na krótką chwilę włączy się alarm wibracyjny we- 
wnątrz Wii Remote. Wewnątrz konsoli ukaże się aktualny status urządzenia. W 
przypadku niepowodzenia, należy powtórzyć sekwencję synchronizacji. Właści- 
wie zawsze pierwsze uruchomienie wymaga kilkukrotnego powtórzenia sekwen- 
cji synchronizacji, w celu nawiązania stabilnego połączenia. Po uruchomieniu 
się przykładowego programu można włączać z pomocą przycisków znajdujących 
się na Wiimote urządzenia wewnętrzne, np. kamerę, akcelerometr czy alarm wi- 
bracyjny. Program przykładowy będzie raportował, jaki przycisk został wciśnięty 
oraz jakie dane aktualnie są dostępne. 

Wielokrotne próby z przykładowym programem pozwoliły na poznanie spe- 
cyfiki pracy Wii Remote. Dostrzeżono mianowicie, że kamera podczerwona nie 
zawsze się uruchamia, co stwarzało sporo problemów. Podczas badań nad biblio- 
teką wiiuse odkryto, iż jednoczesne włączenie akcelerometru bądź alarmu wibra- 
cyjnego w niewiadomy sposób wspomagało drożność przesyłu danych z intere- 
sującej autorów kamery podczerwonej. Ten fakt jest uwzględniony w programie 
napisanym do obsługi Gestów Marszałka. 


Testy kamery 


Podczas empirycznych prób z kamerą podczerwoną na potrzeby testów stwo- 
rzono testowe markery z źródłami światła podczerwonego. Podczas prób z róż- 
nymi sposobami na klasyfikację danych zrodził się pomysł rozróżniania diod 
podczerwonych na podstawie stałej odległości pomiędzy parami diod[7.8] W kon- 
sekwencji powstały dwa markery z równo-odległymi diodami. Jednocześnie zro- 
dził się pomysł na rozróżnianie markerów od siebie za pomocą wielkości źródła 
światła podczerwonego. Ten pomysł spowodował powstanie kolejnych dwóch 
markerów z żarówkami samochodowymi. Wii Remote teoretyczne pozwala na 
rozróżnianie wielkości śledzonego punktu podczerwonego w zakresie od 0 do 15 
jednostek. W praktyce mimo wielu prób z różnymi źródłami (poprzez silne ża- 
rówki, płomienie świeczek, wylotu hotair'a, czy grupy skupionych diod podczer- 
wonych) udało się uzyskać maksymalnie wartość 6. Podczas testów nad rozpo- 
znawaniem wielkości diody został stworzony testowy przyrząd złożony z żarówki 
samochodowej o napięciu 12V oraz blendy strzeleckiej z regulowaną przesłoną 
Podczas testów z regulowaną przesłoną uzyskiwano płynne przejście od 0 
do 6 jednostek pola punktu podczerwonego. Próby wykonywane były w odle- 
głości jednego metra od kamery. W przypadku za bliskiej odległości, mniejszej 
niż 20cm, kamera nie działała poprawnie. Maksymalny zasięg czujnika wynosił 
ok. 5 metrów. Podczas prób należało zwrócić uwagę na wyłączenie/ogranicze- 
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Rys. 7.8: Zestaw końcowy źródeł światła podczerwonego, parami rozmieszczo- 
nymi w jednakowych odległościach. 


Rys. 7.9: Przyrząd do testowania rozpoznawania wielkości punktu podczerwo- 
nego. 


nie wszelkich źródeł promieniowania mogących zakłócić pomiary, m.in. silnego 
światła słonecznego, żarówek/lampek oświetleniowych. Okazało się, że najwięk- 
sze zakłócenia generowały świetlówki. 

Niestety stabilność rozwiązania pod kątem rozróżniania wielkości punktu 
podczerwonego była niezadowalająca. Przyczyna leżała w malejącej rozdziel- 
czości rozpoznawanej wielkości wraz ze wzrostem odległości (wzrost odległości 
sprawiał, że malała relatywna wielkość pola powierzchni punktu). Efektem było 
rozpoznawanie różnych źródeł jako tak samo duże punkty. Podczas wykonywa- 
nia gestów duże żarówki samochodowe dawały wielkość 2, a małe diody podczer- 
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wone wielkość 1, przy czym zmiana kąta pomiędzy płaszczyzną czujnika, a źródeł 
światła zmniejszała relatywną powierzchnię, bądź powodowała zanik odczytu. 


7.3.4. Uruchomienie systemu 


Instalacja programu 


Pierwszym krokiem podczas instalacji stworzonego oprogramowania jest od- 
powiednie przygotowanie systemu. Jak już wcześniej opisywano należy zacząć od 


instalacji paczek bluetooth, bluez, ibus, libqt4, cmake, g++ dostępnych w Sy- 
napticu lub konsolowo należy wpisać: 

$ sudo apt-get install bluetooth 

$ sudo apt-get install bluez 

$ sudo apt-get install ibus 

$ sudo apt-get install libqt4 

$ sudo apt-get install cmake 

$ sudo apt-get install g++ 


Następną czynnością jest sprzętowe włączenie bluetootha. Po przetestowaniu 
sprawności tego urządzenia, np. poprzez połączenie się telefonem komórkowym, 
należy przejść do instalacji biblioteki wiiuse [18]. W celu zainstalowania biblio- 
teki w konsoli należy przejść do folderu z biblioteką, do miejsca w którym jest 
Makefile, i wpisać komendę: 

$ make 
a następnie: 
$ sudo make install 

Następnym krokiem jest kompilacja oprogramowania do rozpoznawania ge- 
stów. Bibliotekami potrzebnymi do poprawnego działania systemu są python, 
numpy, scipy imlpy. Dlatego w oknie konsoli należy wpisać: 
sudo apt-get install python 
sudo apt-get install numpy 
sudo apt-get install scipy 

$ sudo apt-get install mlpy 

Biblioteki te są odpowiedzialne za działanie klasyfikatora SVM zaimplemento- 
wanego w pythonie. Po rozpakowaniu archiwum z programem należy w konsoli 
wejść do folderu Gest yMarszlka i wpisać: 

$ sh makefile.sh 
Polecenie to skompiluje program wii odpowiadajacy za potaczenie z Wii Remote, 
przesytanie oraz formatowanie danych. Kolejnym krokiem jest wykonanie pole- 
cenia: 


Ur u Ur 


$ make 
Polecenie to wywoła główny Makefile kompilujacy interfejs wykonany w Qt4. 
Należy pamiętać, aby w systemie był uruchomiony ibus-daemon. Jeśli tak nie 
jest, to można uruchomić go z konsoli: 


$ ibus-daemon 
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W tej chwili system rozpoznawania gestów jest już w pełni zainstalowany. Aby 
uruchomić program główny wystarczy przejść do folderu /bin i wpisać: 


$ ./gesty 


Obsługa programu 


Po uruchomieniu aplikacji należy nauczyć program rozpoznawania gestów. 
W GUI należy kliknąć Plik->Uczenie. W tym momencie jest uruchamiany 
klasyfikator.py. Skrypt ten tworzy na podstawie danych klasyfikujących za- 
wartych w folderze /bin bazę dla SVM. W konsoli wyświetlane są nazwy baz da- 
nych, z jakich skorzystał program, przy czym nazwa folderu jest nazwą klasyfiko- 
wanego gestu. Foldery będące bazami wiedzy dla programu muszą zawierać pliki 
z gestami. Pliki z gestami mogą mieć dowolne nazwy. 

W pliku z danymi powinna znajdować się w każdej li- 
nii ramka danych z programu wii. Poniżej przedstawiono 
pseudokod ramki oraz przykładowy rzeczywisty ciąg danych: 
sizel x1 yl [size2 x2 y2] [size3 x3 y3] [size4 x4 y4] approx_X approx_Y time 


3 0.069 0.544 4 -0.208 0.210 2 -0.417 0.609 -0.185 0.454 0.000 
3 0.069 0.544 4 -0.208 0.210 2 -0.417 0.609 -0.185 0.454 0.010 
3 0.069 0.544 4 -0.208 0.210 2 -0.417 0.609 -0.185 0.454 0.020 
0 
0 


3 -0.769 0.272 3 -0.939 0.724 2 0.595 0.492 2 0.423 0.124 -0.173 0.403 0.020 
3 -0.769 0.272 3 -0.939 0.724 2 0.595 0.492 2 0.423 0.124 -0.173 0.403 0.020 
2 -0.435 0.883 2 -0.343 1.378 1 0.691 -0.129 1 0.382 -0.259 0.074 0.468 0.020 
2 -0.586 0.711 2 -0.589 1.219 1 0.695 0.103 1 0.419 -0.124 -0.015 0.477 0.020 
2 -0.662 0.572 2 -0.726 1.070 1 0.672 0.254 1 0.427 -0.030 -0.072 0.467 0.020 
2 -0.752 0.317 2 -0.912 0.776 1 0.595 0.481 1 0.417 0.119 -0.163 0.423 0.020 
2 -0.750 0.306 2 -0.916 0.768 1 0.587 0.497 1 0.415 0.129 -0.166 0.425 0.020 
2 -0.752 0.304 2 -0.918 0.760 1 0.586 0.502 1 0.415 0.132 -0.167 0.424 0.020 
1 -0.750 0.301 2 -0.918 0.760 1 0.582 0.507 1 0.413 0.137 -0.168 0.426 0.020 
2 -0.748 0.301 2 -0.914 0.760 1 0.580 0.510 1 0.412 0.142 -0.168 0.428 0.020 
2 -0.750 0.301 2 -0.914 0.760 1 0.580 0.510 1 0.412 0.142 -0.168 0.428 0.020 
2 -0.748 0.301 2 -0.908 0.760 1 0.574 0.518 1 0.410 0.142 -0.168 0.430 0.020 
2 -0.748 0.299 2 -0.910 0.757 1 0.574 0.520 1 0.410 0.145 -0.169 0.430 0.020 


Niestety, czas jest podawany z dość dużym interwałem, wynoszącym dla 0,01 
ok 0,43s. Aby poprawić ten parametr (nie przeszkadza to klasyfikatorowi) nale- 
żałoby odwołać się do funkcji w kodzie maszynowym, które korzystałyby bezpo- 
średnio z przerwań procesora. Po dokonanym uczeniu w folderze /bin tworzą 
się logi z których korzysta klasyfikator.py. 

Po udanej klasyfikacji gestów można przystąpić do nagrywania gestu. Aby 
tego dokonać należy przełączyć Wii Remote w tryb synchronizacji przy pomocy 
czerwonego przycisku znajdującego się w komorze na baterie oraz kliknąć w pu- 
shbutton „Połącz”. W tym momencie w konsoli powinnien pojawić się status 
urządzenia Wii Remote, a na samym urządzeniu powinna zapalić się pierwsza 
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niebieska dioda. W przypadku przyciskania guzików na Wiimote w konsoli po- 
winny pokazywać się raporty informujące o wciśnięciu przycisku. W celu po- 
budzenia czujnika podczerwieni warto wcześniej „udrożnić” komunikację z Wii- 
mote i wcisnąć przycisk „B” znajdujący się pod spodem Wii Remote. Przycisk ten 
włączy silnik wibracyjny. Po chwili należy go wcisnąć powtórnie, aby wyłączyć 
wibracje. Ten drobny test pozwala potwierdzić poprawności działania Wii Re- 
mote. Następne, aby dokonać „nagrania” gestu należy przygotować źródła świa- 
tła podczerownego. Warto wyłączyć wszystkie inne źródła podczerwieni w celu 
uniknięcia niepożądanych zakłóceń. Po tych czynnościach należy wcisnąć przy- 
cisk „UP”. W tym momencie program wii zacznie przesyłać strumień danych do 
pliku dane. txt, który jest za każdym razem kasowany i nadpisywany nowymi da- 
nymi. Osobę pokazującą gest należy umieścić w polu widzenia kamery, starając 
się aby źródła podczerwieni przemieszczały się w środkowym sektorze - wtedy 
zostaną prawidłowo wykryte przez czujnik podczerwieni. Klasyfikator odczytu- 
jący plik dane. txt jest odporny na charakterystyczne jednostkowe szumy wystę- 
pujące w strumieniu danych z Wii Remote. Następnie po nagraniu dwu sekun- 
dowego gestu można przystąpić do klasyfikacji gestu poprzez naciśnięcie push- 
button'a „Klasyfikuj”. W konsoli w tle ukażą się wyniki klasyfikacji. Aby ujrzeć 
w GUI należy kliknąć pushbutton „Pokaż wynik”. Pozytywny wynik klasyfikacji 
jest oznaczony poprzez liczbę „1” znajdującą się po nazwie gestu z bazy, ,,-1” 
oznacza negatywny wynik klasyfikacji gestu. Kliknięcie w Plik->Koniec, rozłączy 
komunikację z Wii Remote, wyczyści logi z folderu /bin oraz zamknie aplikację. 

Istnieje możliwość dokonania klasyfikacji gestu w przypadku braku urzą- 
dzenia Wii Remote. Można tego dokonać poprzez utworzenie pliku o nazwie 
dane .txt w folderze /bin i umieszczenie tam danych z dowolnego pliku pobra- 
nego z bazy. Dopuszcza się samodzielne wygenerowanie danych, obowiązkowo 
ramka powinna wyglądać w następujący sposób: 


sizel x1 yl [size2 x2 y2] [size3 x3 y3] [size4 x4 y4] approx_X approx_Y time 
gdzie sizel nie moze być zerowe, a approx_X i approx_Y są średnią arytme- 
tyczną współrzędnych „iksowych” oraz „igrekowych”. Czas jest nieistotny, ale 
musi być podany. Jeżeli wykorzystywane są dane skopiowane z bazy, warto usu- 
nąć ten plik z bazy. Wtedy przeprowadzona zostanie rzeczywista klasyfikacja ge- 
stu, który nie istnieje w identycznej postaci w bazie wiedzy. Po utworzeniu ta- 
kiego pliku należy kliknąć „Uczenie”, a następnie „Klasyfikacja”. Program powi- 
nien sklasyfikować podany gest. 


7.3.5. Dane do Klasyfikacji 


Otrzymywane dane Q w procesie akwizycji (trwającej dwie sekundy) zawierają 
ciągi pozycji poszczególnych diod nagrywanych w dwusekundowych sekwen- 
cjach (maksymalna długość odczytanego gestu to M = 300). 


g= {A1, Aż, Az, Ag}, 
gdzie A; to odczyt z pojedynczej diody. 
Aj = (Ay, A2,..., Ak) I = {1,2,3,4}, k < M, Ài = (xi, yi i < k. 
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Położenie punktów na płaszczyźnie 2D określa się zmiennymi x, y e<-—1,1>. Do 
klasyfikacji użyto jedynie środka ciężkości z czterech diod Ag: 


p" Al] + A2[1] + A3{1] + A4[1] A, [Kk] + A2[K] + Az[k] + As[K] 
g= A EH Fi 


7.3.6. Opis działania klasyfikatora SVM 


W module o nazwie klasyfikator.py, napisanym w jezyku programowania 
Python, nastepuje klasteryzacja danych uczacych, jak i klasyfikacja wektora cech. 
Ponieważ wektory cech pobieranych z urządzenia Wiimote są różnej długości, 
a algorytm SVM wymaga, aby były one tego samego wymiaru, dane wstępnie 
sprowadzane są do wektorów stuwymiarowych (50 wartości x i 50 wartości y) po- 
przez interpolację. Wymiar wektora został dobrany na podstawie badań. Jest on 
na tyle duży, że nie traci informacji o rodzaju gestu, a na tyle mały, że algorytm 
SVM działa bardzo szybko. 

Interpolacja polega na rozciąganiu lub też zwężaniu długości wektora cech. 
Przykładowo, mając sinusoidę o okresie 70 próbek po interpolacji otrzymamy si- 
nusoidę o okresie 50 próbek zachowując jej kształt. W rezultacie każdy gest zo- 
staje sprowadzony do „długości trwania” 50 jednostek czasu. Interpolacja prze- 
biega osobno dla wartości x jaki y, otrzymany wektor: interpolacja (Ag) = Aint = 
{(x1, X2,...,X50)7, (V1V21---+750)7 | zostaje następnie zapisany do postaci jedno- 
wymiarowej poprzez przeplatanie wartości x; i y;, dla i = 1...50. W wyniku całej 
operacji wektor A flat = (X1, Yi, X2, Y2...» X50, Yso)". Następnie przeprowadzany 
jest algorytm SVM, dla każdego wektora uczącego Aint. 

Opis algorytmu SVM szerzej opisany jest w pracy [19]. Nie wchodząc w szcze- 
góły polega on na tym, żeby rozdzielać dwa klastry danych prostą w taki sposób, 
żeby marginesy pomiędzy prostą a danymi były jak największe. Na podstawie po- 
wstałej prostej przeprowadzana jest później klasyfikacja nowych wektorów. Jako, 
iż algorytm SVM oddziela od siebie dwa klastry, niezbędne jest zastosowanie al- 
gorytmu SVM dla każdej klasy, tak aby późniejsza klasyfikacja pozwoliła określić, 
czy dane wejściowe należą do danego klastra, czy nie. Dlatego może się zdarzyć, 
że wektor wejściowy zostanie zaklasyfikowany do więcej niż jednej klasy. Podczas 
przeprowadzania testów sytuacja ta jednak nigdy nie miała miejsca. Wytłuma- 
czeniem jest fakt, że gesty różniły się między sobą i w stuwymiarowej przestrzeni 
klastry były umiejscowione daleko od siebie tak, że SVM radził sobie z nimi wy- 
śmienicie. 


7.3.7. Testy walidacyjne dla różnych wartości kerneli 


Do badania poprawności klasyfikacji wygenerowano średnio 50 sekwencji dla 
jednego rodzaju gestu. Spośród kilkudziesięciu gestów dostępnych w palecie ru- 
chów Marszałka wybrano sześć. Kierowano się tym, aby niektóre były znacząco 
od siebie różne, jak również występowało między niektórymi pewne podobień- 
stwo. Gestami podobnymi były „Rot 90 stopni”, „Koło w lewo”, zupełnie odbiega- 
jące od pozostałych były gesty: „Skos w lewo”, „Gest 1”. 
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Tab. 7.1: Błędy średnie dla różnych kerneli 


Gest linear | gaussian tr tversky 
Skos w lewo 0,0000 | 0,0563 | 0,0000 | 0,0000 
Koło w prawo | 0,2058 | 0,8379 | 0,3313 | 0,2550 
Koło wlewo | 0,2086 | 0,8179 | 0,3246 | 0,2616 
Rot90stopni | 0,0266 | 0,1588 | 0,0000 | 0,0033 
Gest 1 0,0297 | 0,0430 | 0,0066 | 0,0033 
Gest 2 0,0330 | 0,1658 | 0,0066 | 0,0066 


Klasyfikator napisany w Pythonie ma możliwość dobierania różnych rodza- 
jów kerneli wykorzystywanych podczas obliczania prostych oddzielających kla- 
stry. Przeprowadzono testy czterech takich kerneli (w tabeli[7.1]przedstawiono, 
jak plasował się średni błąd przyporządkowań danych wejściowych). Testy prze- 
prowadzane były dla kroswalidacji z wartością 5, co oznacza, że każdy ciąg da- 
nych dzielony był na pięć części, przy czym 4 z nich brane były do uczenia algo- 
rytmem SVM a piąta brana była jako ciąg testujący. 

Zauważono, że wartości błędu dla kernela liniowego są zadowalające, a SVM 
działający z tym kernelem działa najszybciej (postanowiono korzystać właśnie z 
niego podczas właściwego działania programu, jakkolwiek w każdej chwili można 
zmieniać to ustawienia kernela). Patrząc na wyniki widać, że gesty z pozoru 
różne, takie jak „Koło w prawo” i „Koło w lewo” dla każdego kernela posiadają 
zbliżoną wartość błędu klasyfikacji. Zatem można przypuszczać, że to iż gesty za- 
czynały się i kończyły w tych samych punktach o obu przypadkach miało mocny 
wpływ na bliskie umiejscowienie klastrów w przestrzeni. 


7.4. Zastosowanie w dydaktyce 


Program rozpoznający gesty w założeniu miał służyć celom dydaktycznym. 
Funkcja edukacyjna miała opierać się na programie oraz algorytmie, który stwo- 
rzono w ramach pracy nad oprogramowaniem rozpoznającym. Procesowi edu- 
kacji mieli zostać poddani członkowie personelu lotniczego pragnący doskonalić 
swoje lotnicze umiejętności. Wiedza dotycząca wykonywania oraz rozpoznawa- 
nia gestów marszałka jest potrzebna: 


e pilotom, którzy wykonują odpowiednie procedury, w zależności od rozpozna- 
nego gestu wydanego przez marszałka na lotnisku kontrolowanym; 

e obsłudze naziemnej lotniska, która ma uprawnienia do kierowania ruchem lot- 
niskowym; 

e pasjonatom lotnictwa, którzy mogą dzięki temu poszerzać swoją wiedzę. 

Program rozpoznawania gestów został stworzony do uniwersalnego rozpozna- 

wania dowolnego gestu pokazanego przez maksymalnie cztery źródeł światła 


podczerwonego. Uniwersalność ta jest zapewniona przez korzystanie z bazy da- 
nych, którą można utworzyć samemu. Uczenie mogłoby zostać zrealizowane 
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przez program, który określałby gest do wykonania przez użytkownika, natomiast 
użytkownik musiałby wykonać ten gest (narzędziem z dioda podczerwonymi). 
Program po nagraniu gestu dokonałby klasyfikacji, czyli stwierdziłby, do jakiej 
klasy zaliczyć gest. Funkcja dydaktyczna po zakończeniu testów pokazywałaby 
statystykę poprawności odpowiedzi. Taki test mógłby być powtarzany dla wielu 
różnych gestów. 

System mógłby pełnić rolę również interaktywnego nauczyciela. Program dy- 
daktyczny pokazywałby użytkownikowi nagranie gestu wykonane kamerą światła 
widzialnego, a użytkownik mógłby wykonywać ten gest przy użyciu zestawu diod 
podczerwonych. W ten sposób można by automatycznie tworzyć bazę danych 
dla programu, każdy nagrany gest byłby umieszczany w bazie, z której następnie 
po odpowiedniej filtracji korzystałby program. 


7.5. Podsumowanie i dalsze badania 


Przeprowadzane badania dowiodły, że akwizycja danych za pomocą kontro- 
lera Wiimote, jak i klasyfikacja metodą SVM spełniają wymagania postawione dla 
systemu rozpoznającego Gesty Marszałka. Błędy klasyfikacji są na tyle małe, że 
zdecydowana większość gestów jest poprawnie wykrywana. Problemami, które 
mogą wystąpić podczas korzystania z aplikacji są m.in. mała powtarzalność w re- 
agowaniu sprzętu na początki nagrywania sekwencji oraz odpowiednia pozycja 
osoby wykonującej gesty (aby pobierane dane nie traciły swoich cech przez rzu- 
towanie). Po odpowiednim zaprogramowaniu interfejsu program może z powo- 
dzeniem służyć do nauki Gestów Marszałka. 

W przyszłości warto byłoby porównać inne metody klasyfikacji gestów, 
zwłaszcza uprzednio założoną metodę sieci neuronowych. Jednak złożoność 
algorytmu obsługującego nauczanie i modelowanie odpowiedniej sieci neuro- 
nowej (ze sprzężeniami zwrotnymi wg. [8]) była znaczną przeszkodą w realiza- 
cji projektu na czas, jednak ciekawym aspektem badawczym byłaby realizacja 
owych sieci i porównanie jej ze „statyczną” metodą klasyfikacji jaką jest metoda 
SVM, pomimo tego, że skuteczność SVM w tym przypadku jest bardzo wysoka. 
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ROZDZIAL 


KOMPUTEROWA PSEUDOLOSOWOSC 
S. Chlebicki, M. Skoczylas 


W niniejszym rozdziale przedstawiono takie zagadnienia związane z genero- 
waniem liczb pseudolosowych jak: definicje i historia liczb losowych, problema- 
tyka generowania liczb pseudolosowych, sposoby tworzenia i testowania wybra- 
nych generatorów (liniowego i kwadratowego). Opisano w nim również sposób 
wykorzystywania liczb pseudolosowych. Ponadto omówiono przykłady praktycz- 
nych implementacji wykorzystujących generatory liczb pseudolosowych, działa- 
jących na mikrokontrolerze, pozwalających na: wizualizację działania generatora 
liniowego i kwadratowego na wyświetlaczu LCD, oraz szyfrowanie algorytmem 
XOR danych przesyłanych bezprzewodowo. 


8.1. Liczby losowe 


Liczby losowe w nieformalnym ujęciu traktowane są jak wartości, których war- 
tości nie można przewidzieć rozpatrując dany eksperyment losowy. Formalnie 
rzecz biorąc liczba losowa jest konkretną wartością przyjmowaną przez zmienną 
losową. Jako przykład mogli byśmy podać dowolną liczbą rzeczywistą. Trudno 
jest jednak rozpatrywać losowość pojedynczej liczby [1]. 

Zmienna losowa $ jest z kolei funkcją, która przyporządkowuje zdarzeniom 
elementarnym liczby. Przykładem takiej funkcji jest wzrost albo waga człowieka 
przypadkowo napotkanego w danej populacji, lub wypadkowa liczba oczek pod- 
czas rzucania kością do gry. Gdy wartością funkcji będącej zmienną losową są 
iczby rzeczywiste, mówimy o zmiennej losowej rzeczywistej, tzn. 


¿:Q-R (8.1) 


Zdarzenie elementarne jest elementem zbioru tradycyjnie oznaczanym przez 
Q. Zbiór ten reprezentuje wszystkie możliwe wyniki eksperymentu losowego. Dla 
przykładu przy rzutach monetą zbiorem zdarzeń elementarnych jest 


Q = (Orzeł, Reszka) (8.2) 


Kluczem do zdefiniowania zmiennej losowej, jest określenie, czym jest „ekspery- 
ment losowy”, lub też czym jestlosowość. Klasyczna teoria prawdopodobieństwa, 


8.2. Liczby pseudolosowe 


rozwijana przez Pascala i Fermata, mówi, że wyniki losowego eksperymentu są 
jednakowo prawdopodobne, tzn. że gdy losujemy spośród n liczb, szansa na wy- 
losowanie konkretnej wartości wynosi 


P(x) = : (8.3) 
n 


Przyczyną losowości zjawiska mogą być jego specyficzne cechy fizyczne, bądź 
niezmierna komplikacja niemożliwa do objęcia żadnym zdeterminowanym mo- 
delem [2]. 


8.2. Liczby pseudolosowe 


There is no such thing as a random number, 
there are only methods to produce random numbers. 
John von Neumann 


W odróżnieniu od liczb losowych, liczby pseudolosowe są wynikiem działa- 
nia algorytmu, będącego ścisłym wzorem matematycznym. Algorytm taki nazy- 
wany jest generatorem liczb pseudolosowych. Ponieważ generatory liczb loso- 
wych są niezwykle nieliczne i rzadko wykorzystywane, potocznie mówiąc o gene- 
ratorach liczb losowych ma się na myśli właśnie generatory liczb pseudolosowych 
[3]. Wspomniane algorytmy są implementowane w taki sposób aby liczby pseu- 
dolosowe posiadały wybrane własności liczb losowych. 

Liczby pseudolosowe posiadają ważną cechę, która umożliwia ich wykorzy- 
stanie tam, gdzie liczby losowe nie spełniałyby należycie swej roli. Można je sto- 
sunkowo szybko otrzymywać, tzn. nie wykonując eksperymentu losowego ani nie 
wykonując pomiarów. Wystarczy wyliczyć pewną wartość wedle określonej re- 


guły. 
8.3. Zastosowanie liczb pseudolosowych 


Zainteresowanie liczbami pseudolosowymi wynika z praktycznych ich zasto- 
sowań. Liczby losowe potrzebne są do realizacji zadań, w których efekt przypad- 
kowy jest lepszy niż zdeterminowany. Poniżej opisano dziedziny, w których wy- 
korzystuje się liczby pseudolosowe. 


Kryptografia Być może najważniejszą dziedziną nauki wykorzystującą genera- 
tory liczb pseudolosowych jest kryptografia. Wiele algorytmów szyfrowania wy- 
korzystuje właściwość losowości. Jakość generatorów dla tej dziedziny ma kry- 
tyczne znaczenie, gdyż możliwość przewidzenia kolejnej liczby będącej wyni- 
kiem losowania jest wyznacznikiem bezpieczeństwa. Ponadto wysoka szybkość 
ich działania umożliwia szyfrowanie i deszyfrowanie w czasie rzeczywistym, co 
pozwala na realizacje bezpiecznych transferów danych. 
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Testy sprzętu i oprogramowania Liczby pseudolosowe wspomagają automa- 
tyczne testowanie sprzętu i oprogramowania. Taka metodologia jest powszechnie 
stosowanym sposobem nowoczesnego i szybkiego rozwoju technologicznego. 
Losowane mogą być zarówno same dane wejściowe, jak i sekwencje (pakiety) da- 
nych. 


Symulacje komputerowe Liczby pseudolosowe są równie często stosowane do 
realizacji symulacji. Symulacje wspomagają prace inżynierskie i ekonomiczne. 
Liczby pseudolosowe mogą być wykorzystywane jak w przypadku testów do ge- 
nerowania danych, lub do realizacji zakłóceń, które mają charakter losowy. 


Gry komputerowe Dziedziną podobną do symulacji są gry komputerowe. Tutaj 
zastosowanie liczb pseudolosowych ma jednak inne znaczenie. Liczby te są wy- 
korzystywane do zwiększenia tzw. grywalności. Gra jestlepiej odbierana, gdy roz- 
wój wydarzeń bądź scenariusz jest trudny do przewidzenia przez gracza. Rzecz 
może dotyczyć samego scenariusza gry, ale również renderowanej grafiki. Biblio- 
teki programistyczne zwane „silnikami fizyki”, wykorzystywane przez twórców 
gier, mogą stosować losowość do symulacji zakłóceń. Ponadto w grach wyko- 
rzystywane są metody sztucznej inteligencji, które również wykorzystują liczby 
pseudolosowe. 


Sztuczna inteligencja Wiele metod sztucznej inteligencji wykorzystuje liczby 
pseudolosowe. Są to tak zwane metody oparte na prawdopodobieństwie. 


Metody numeryczne Liczby pseudolosowe są również elementem metod nu- 
merycznych. Jak pokazują badania jakość generatorów wpływa na czas zbieżno- 
ści algorytmów Monte Carlo. Można też wykorzystać je w obliczeniach przepro- 
wadzanych zwykle metodami deterministycznymi (np. w obliczaniu całek wie- 
lowymiarowych) [2]. W algorytmach sztucznej inteligencji liczby pseudolosowe 
odgrywają szczególną rolę przy realizacji rzeczywistych procesów losowych, ta- 
kich jak prawdopodobieństwo mutacji czy prawdopodobieństwo krzyżowania. 


8.4. Generatory liczb losowych 


Generatory liczb losowych to metody otrzymywania liczb prawdziwie loso- 
wych. Oznacza to, że związane są one z pewnym procesem fizycznym, który jest 
źródłem losowości. 


Rzut monetą Jako przykład rozpatrzmy eksperyment rzucania monetą. Jest 
to tak zwany generator mechaniczny [3]. Generator ten pozwala na wylosowa- 
nie dowolnie dużej liczby. Jeśli wyniki ośmiu losowań potraktować jako wartości 
ośmiu bitów, to otrzymuje się generator liczb z przedziału od 0 do 255. Dobiera- 
jąc odpowiednią metodę kodowania wyniku losowań można generować liczby ze 
znakiem i liczby zmiennoprzecinkowe. Problemem jest jednak powolny proces 
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losowania, w związku z czym tego typu generator nie może być wykorzystany do 
realizacji zadań opisanych w punkcie[8.3] 


Pomiar szumów Szum jest przykładem procesu losowego. Ze względu na 
własności statyczne często wykorzystywany jest szum biały. Metoda pomiaru, 
choć szybsza od wspomnianego eksperymentu rzucania monetą, jest nadal zbyt 
wolna, by tego typu generator można było wykorzystać w większości zastosowań. 


Pomiar innych procesów fizycznych W literaturze [3] opisano, iż buduje sie 
generatory liczb losowych oparte o procesy fizyczne takie jak rozpad radioak- 
tywny czy temperatura. Z wykorzystaniem tego typu generatorów wiąże się pro- 
blem stabilności: niewielkie zmiany warunków zewnętrznych mogą powodować 
zmiany własności probabilistycznych otrzymywanych liczb. 


Urządzenie /dev/random Ciekawym i wartym wspomnienia rozwiąza- 
niem realizującym generator liczb losowych w komputerze jest urządzenie 
/dev/ random. Jest to plik występujący w systemach operacyjnych będących po- 
chodnymi Unix'a, sprzężony ze znajdującym się na płycie głównej lub karcie 
dźwiękowej generatorem szumu. Jeśli brak takiego urządzenia, wykorzystany 
może być czujnik temperatury procesora. Przykład wykorzystania pliku przed- 


stawiono na rys.[8.1] 


stachu@localhost:~ aren Eee 


© |[stachu@localhost “]$ cat ¿dev/random 


BEF 1R48A8068u?v_0000x6 
>p08::/00H0k6060260L 68VU"x:000000090606030000*e0+0::00N06:.0 
%4h088 
f0001000t „8: 190])01*80 000008 | Kn8$18::70n020t*60_L00**60Jpz/06005040$ ]6G080 


010004H8C::0+8[ 6L00b*000660000a1::s0+, "800,0 8 808A060400_v_::0000600668 
0900000000d8x0n0008[ 00 „08rYFGBv 

(0000 |::00.:R00V0-Ś00*ceOeiie000*cOOnu3  GBŃRzS=bBkRG?X , 

000006 "'r.j07X0E0001000u7048800008000R00*320002000i0'0200u01M80D8008::0_|] 


Rys. 8.1: Wynik wypisania pliku /dev/random w terminalu. 


Alokacja pamięci Szybką metodą wykorzystywaną przez programistów do ge- 
nerowania liczb losowych jest alokacja obszaru pamięci i odczytanie zawartych 
tam danych. Metoda ta jest naturalnie nie do zaakceptowania w kryptografii. Po- 
nadto własności statystyczne tak generowanych liczb losowych mogą być nieza- 
dowalające. 


8.5. Generatory liczb pseudolosowych 


Random number generators should not be chosen at random. 
Donald Knuth 
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Problemy związane z generowaniem liczb losowych skłaniają użytkowników 
do sięgnięcia po szybsze (choć mniej bezpieczne) metody, jakimi są generatory 
liczb pseudolosowych. Przykładami generatorów liczb losowych są: 


e generator liniowy, 

e generator kwadratowy von Neumanna, 
uogólniony generator Fibonacciego, 

e generator SWB (substract with borrow), 
e generator SR (shift register), 

e generator MWC (multipy with carry), 

e Eichnauer €: Lehn, 

e Eichnauer & Herman, 

¢ Blum, Blum & Shub. 


Ich nazwy są związane z nazwiskiem twórcy bądź metodą działania generatora. 
Różnią się one przede wszystkim szybkością działania i poziomem bezpieczeń- 
stwa (z punktu widzenia wykorzystania w kryptografii). 


8.6. Historia rozwoju metod otrzymywania liczb losowych 


W tym podrozdziale opisano wybrane wydarzenia historyczne mające wpływ 
na rozwój generatorów liczb pseudolosowych. 


W 1733 roku francuski matematyk Georges-Louis Leclerc 


20060418182514) sformułował tzw. problem Igły Buffona. W 


1777 podał on jego rozwiązanie. Problem polegał na opracowa- 
niu eksperymentu pozwalającego na wyznaczenie liczby m za 
pomocą igły rzucanej na kartkę papieru podzieloną liniami. 


W 1927 roku L.H. Tippet wydał pierwszą tablicę liczb losowych pod tytułem 
„Random Sampling Numbers”. Liczby losowe miały źródło w spisie ludności 
Wielkiej Brytanii oraz powierzchni brytyjskich parafii. Tablice tworzył ciąg 41600 
cyfr. 


W latach 1930-tych Enrico Fermi zrealizował ob- 
liczenia dyfuzji neutronów w oparciu o liczby lo- 
sowe. Do ich generowania wykorzystał zbudowane 
przez siebie urządzenie mechaniczne zwane FER- 
MIAC (zdjęcie obok, źródło: 
org/wiki/File:FERMIAC. jpg). Jest to tzw. komputer 


analogon 939 powstały dwie ważne tablice liczb losowych. Autorami pierwszej 
byli R.A. Fisher i F Yates. Ich tablica składała się z 15000 cyfr losowych. Auto- 
rami drugiej byli Kendall, Babington i Smith. Ich tablica składała sie ze 100000 
cyfr losowych, wyprodukowanych przy użyciu tzw. elektronicznej ruletki. Był to 
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dysk napędzany silnikiem elektrycznym, z wyróżnionymi wycinkami odpowiada- 
jącymi cyfrom od 0 do 9. 

W latach 1940-tych duży wpływ na rozwój generatorów liczb pseudolosowych 
miały prace nad projektem Manhattan, w których udział brali J. von Neumann, 
N. Metropolis i S. Ulam (rys.[8.2). 


J. von Neumann S. Ulam N. Metropolis 


Rys. 8.2: Uczestnicy projektu Manhattan (Źródło: http: //commons.wikimedia. 
org/wiki/Category:People_associated_with the Manhattan_Project). 


W latach 1950 znacznie wzrosło zainteresowanie metodami Monte Carlo. Nie 
było jednak dostatecznie wydajnych maszyn cyfrowych by je realizować. W 1951 
roku na potrzeby Głównego Urzędu statystycznego opracowano tablicę liczb lo- 
sowych. W 1955 roku firma RAND Corporation opracowała tablicę 1000000 cyfr 
losowych przy użyciu specjalnego urządzenia elektronicznego generującego i li- 
czącego impulsy. Dalszy rozwój dziedziny związany był z postępem w kompute- 
ryzacji. 

W 1995 roku nastąpił pewnego rodzaju powrót do idei tablic, kiedy to G. Mar- 
saglia wydał CD-ROM zawierający 650MB liczb losowych, wraz z testami Diehard. 


8.7. Generator liniowy 
Komputerowy generator liczb pseudolosowych [4] opisany jest zależnością: 
Xn+1 = f (%0,X1;--., Xn) (8.4) 


Jest to deterministyczna funkcja, obliczająca i + 1-szy element na podstawie po- 
przednich elementów. W przypadku generatora liniowego przyjmuje ona 
postać: 

Xp = (AXn-1 + C) bm, (8.5) 


gdzie x, - n-ta liczba pseudolosowa, x,-1 - poprzednia liczba pseudolosowa, a - 
mnożnik, c - przyrost, m - moduł. Znak % w równaniu oznacza operację 
dzielenia modulo. 


8.7.1. Typy generatorów liniowych 
Wyróżnia się dwa typy generatorów liniowych [5]: 
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e addytywne: x, = (ax,_1 + c)%m, 
e multiplikatywne: xy = axn-1%m. 


Jedyną różnicą strukturalną tych generatorów jest brak czynnika przyrostowego 
w przypadku generatora multiplikatywnego. Ma to jednak istotny wpływ na róż- 
nice funkcjonalne generatorów, gdyż zmienia się zakres generowanych przez nie 
liczb. Dla generatora addytywnego mamy więc: x € {0,1,..., m — 1}, a dla genera- 
tora multiplikatywnego: x € {1,2,...,m-— 1}. 


8.7.2. Dobór współczynników 


W [4] przedstawiono problematykę doboru współczynników a, c i m gene- 
ratora liniowego, oraz podano twierdzenie pozwalające na budowę generatorów 
o zadanym okresie. Dla współczynników a = 5, c= 3 i m = 16 oraz xo = 0 
pozwala na utworzenie nastepujacego ciagu: 


Oy 3) 2 L3y Y ly 6, Ly 8, 11, 1055, 12, dos 14, 9 
Oy 3, 2, 13, 4, 1, 6, ly 8, 11, 10, 5, 12, 15, 14, 9 
0, 


Można zauważyć, że okres wynosi 16, czyli 


a=5,c=3,m=16,x9=0 => x; € {0,1,..., 15} (8.6) 


Generator nie zwróci liczby większej od 15 ze względu na operację dzielenia mo- 
dulo przez m = 16. Dla innego doboru parametrów: a = 3, c=4i m= 16 oraz 
Xo = 0 utworzony zostanie następujący ciąg: 


W tym przypadku okres wynosi 2, czyli 


a=5,c=3,m=16,x9=0 > x; € {0,4} (8.7) 


Uzyskany w ten sposob generator nie jest dobry. Nie zwraca liczb z okreslonego 
zakresu, a na podstawie jego modułu nie można ustalić okresu, dla którego liczby 
wynikowe miałyby jednakowe prawdopodobieństwo wylosowania. 


Twierdzenie Dla generatora liniowego o parametrach a, c i m ciąg generowa- 
nych liczb losowych ma długość m wtedy i tylko wtedy, gdy 


e ci m nie mają wspólnych dzielników, 

e b= a-l jest wielokrotnością każdej liczby pierwszej p, która jest dzielnikiem 
liczby m, 

e bjest wielokrotnością 4, o ile m jest te wielokrotnością 4. 


W tab,|8.1|przedstawiono zestawienie współczynników a, ci m znanych gene- 
ratorów liczb pseudolosowych [6]. 
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Tab. 8.1: Współczynniki znanych generatorów liniowych liczb pseudolosowych. 


Nazwa m a c 
Numerical Recipes 232 1664525 1013904223 
Borland C/C++ 232 22695477 1 

GNU Compiler Collection 232 69069 5 

ANSI C 232 1103515245 12345 
Borland Delphi, Virtual Pascal | 2% 134775813 1 
Microsoft Visual/Quick C/C++ | 2% 214013 2531011 
MINSTD 2 5-7 16807 0 
RANDU 231 65539 0 
SIMSCRIPT 2351_—1 630360016 0 

BCSLIB 235 30517578125 7261067085 
BCPL 232 2147001325 715136305 
URN12 231 452807053 0 

APPLE 235 1220703125 0 
Super-Duper a 69069 0 

FISH 2351—1 950706376 0 
SIMULA 235 30517578125 0 

NAG 259 302875106592253 | 0 
DRAND 48 248 25214903917 11 

CRAY 248 44485709377909 | 0 

MAPLE 1012-11 | 427619669081 0 

DERIVE 232 3141592653 1 

CRAND 232 663608941 0 


8.8. Generator kwadratowy BBS 


8.8.1. Historia powstania algorytmu BBS 


Generator liniowy opisany w poprzednim rozdziale charakteryzuje się liniową 
zależnością kolejnych wyrazów ciągu pseudolosowego. W związku z tym nie jest 
możliwe jego stosowanie np. w kryptografii. Ponieważ od bezpieczeństwa szyfru 
zależą często ludzkie pieniądze, konieczne było zastosowanie takiego generatora 
liczb pseudolosowych, który zapewniłby (a przynajmniej dotychczas zapewnia) 
niemożliwość odkrycia algorytmu generującego kod. Jednocześnie w zastosowa- 
niach kryptograficznych, w przeciwieństwie do symulacyjnych, szybkość działa- 
nia nie ma tak istotnego znaczenia. Wszystkie te cechy spełnia generator kwa- 
dratowy, a dokładniej rzecz ujmując generator reszt kwadratowych BBS. Skrót 
ten wziął się od nazwisk trójki jego wynalazców: Manuela Blum'a, jego żony Le- 
nore Blum i Michaela Shub'a. W roku 1986 zaproponowali algorytm opierający się 
na fakcie, iż liczba pseudolosowa jest generowana na podstawie swojej poprzed- 
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niczki, jako kwadrat poprzedniej liczby modulo pewna stała M. Siłą generatora 
BBS jest odpowiednie wybranie właśnie tej stałej M. 


Manuel Blum (zdjęcie obok, źródło: (źródło: 
cylab.cmu.edu/images/faculty/blum manuel. jpg) - we- 
nezuelski informatyk, absolwent Massachusetts Institute of 
Technology, zajmujący się naukowo zagadnieniami kryptogra- 
ficznymi. W 1995 roku otrzymał nagrodę Turinga za wkład 
w rozwój teorii złożoności obliczeniowej oraz jej zastosowań 
w kryptografii i weryfikacji formalnej. Przedstawił również | 
ważne twierdzenie dotyczące złożoności funkcji obliczalnych. a 
Jest równiez twórca aksjomatu Bluma. 


8.8.2. Charakterystyka algorytmu 


Zgodnie z tym, co zostało wcześniej zaznaczone, generator kwadratowy BBS 
pozwala na wyliczenie kolejnej cyfry ciągu pseudolosowego na podstawie poniż- 
szego wzoru: 

Xi = eS mod M (8.8) 


Kluczowe w algorytmie jest wybranie odpowiedniego M oraz punktu startu 
algorytmu. Odpowiedniego, czyli takiego, który zapewni maksymalny okres ge- 
neratora. Oznacza to, iż ciąg pseudolosowy wygenerowany przez taki algorytm 
będzie miał maksymalną długość. W związku z tym najpierw wybierane są dwie 
liczby pierwsze p i q, które są kongruentne względem 3 modulo 4. Iloczyn tych 
liczb daje tzw. liczbę całkowitą Bluma, czyli M = p:q. Mając ten składnik gene- 
ratora, należy wybrać inną losową liczbę całkowitą x, względnie pierwszą z M. 
Następnie należy obliczyć: 

Xo = x? mod M (8.9) 


gdzie xo jest wartością początkową generatora. Pseudokod algorytmu pokazano 
na rys.|8.3} 


n := pq 
Generuj pseudolosowa liczbe s 
x := (s*s) mod n 
for i= Jy ... do 
x := (x*x) mod n 
b_i := x mod 2 
Output bit b_i 
end for 
Rys. 8.3: Pseudokod algorytmu Blum Blum Shub. 


Aby zrozumieć istotę i wagę założeń oraz wytłumaczyć, dlaczego algorytm 
właściwie nazywany jest generatorem reszt kwadratowych, warto przeanalizować 
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przykład przedstawiony w tab.[8.2| Na tej podstawie można wysnuć następujące 
wnioski: 


algorytm BBS nie generuje wszystkich liczb z założonego zakresu, dlatego 
do ciągu pseudolosowego wybierane są tylko jedności wygenerowanych liczb 
(stąd nazwa algorytmu: generator reszt kwadratowych); w założeniu do ciągu 
losowego brany był ostatni bit, ale oczywiście może to być, jak w powyższym 
przykładzie, jedna cyfra bądź więcej liczb - w zależności od wielkości wyniku, 
wyraźnie widać, że dla podanych warunków początkowych algorytm generuje 
dość krótki ciąg - potrzebne jest wybranie zdecydowanie większych liczb pierw- 
szych, 

co ważne, na podstawie kolejnych wyrazów ciągu nie da się określić, na pod- 
stawie jakich parametrów został stworzony; nie ma wad algorytmu liniowego 
(nie występuje efekt Marsaglii), stąd jego zastosowanie w kryptografii. 


Tab. 8.2: Kolejne kroki algorytm BBS (wzór]8.9) dla następujących wartości współ- 
czynników: Xo = 5, M = 121 (p=11, q=11) 


X= = 25 
Xi= 25%mod121= 20 
Xo= 207 mod121= 37 
X3= 37? mod121= 38 


Xa= 387 mod1l2l= 113 
X= 113? modl2l= 64 
Xg= 647 mod121= 103 


X7= 1032 mod121= 82 
Xg= 82? modl2l= 69 
Xg= 69 mod1l2l= 42 
Xio= 42%mod121= 70 
Xu= 707 modl2l= 60 
X= 917 mod1l2l= 91 
Xı3= 25%mod121= 53 
Xą= 53*mod121= 26 
Xi5= 262 mod1l2l= 71 
Xie= 717 modl2l= 80 
Xi7= 80% mod1l2l= 108 
Xig= 108 mod121= 48 
Xig= 487 mod1l2l= 5 
Xo = 5° mod 121= 25 
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8.8.3. Warunki bezpieczeństwa algorytmu 


Po krótkim wprowadzeniu w działanie algorytmu ważne jest, aby dobrze zro- 
zumieć działanie generatora i dowieść jego bezpieczeństwo. Należy więc wpro- 
wadzić pojęcia i definicje związane z resztami kwadratowym [7]. 


Definicja 1. Liczba całkowita x € Z% jest nazywana resztą kwadratową modulo 
n, jeśli istnieje y takie, ze y? mod n= x. W przeciwnym wypadku, x jest resztą 
nie-kwadratową modulo n. Niech Q R, oznacza zbiór reszt kwadratowych 
modulo n, a zbiór reszt nie-kwadratowych modulo n zostanie oznaczone jako 
QN Rn. 


Następne twierdzenie mówi, jak Z% moze zostać podzielone na pewne ważne 
podgrupy. 


Twierdzenie 2. Niech n = pq będzie wynikiem mnożenia dwóch różnych 
liczb pierwszych oraz niech Z4(+1) oznacza liczby w Z% z symbolem Jacobiego 
1 i Z*(-1) - liczby z symbolem Jacobiego -1. Wtedy połowa elementów Z; 
jest w Z* (+1), a druga połowa w Z;,(-1). Połowa elementów z Z5, (+1) i żaden 
element z Z} (—1) są resztami kwadratowymi modulo, więc Q Rp c Z% (+1). 


Teraz dla x wybranego jednolicie z Z% (—1) prawdopodobienstwo, że x € QRn 
wynosi 1. Problem występowania kwadratowych reszt modulo polega na zde- 
cydowaniu, czy takie x jest resztą kwadratową. Zakłada się, że jest to zadanie 


trudne. 


Założenie 3. Każdy probabilistyczny algorytm P decydujący o reszcie kwa- 
dratowej modulo x € Z7(+1), gdzie n = pq jest iloczynem dwóch różnych liczb 
pierwszych, będzie miał prawdopodobieństwo sukcesu najwyżej 5 +e, gdzie e 
jest nieistotne w porównaniu do długości bitów n. 


To założenie jest często nazywane Założeniem Reszt Kwadratowych Modulo 
(ang. QRA). 


Definicja 4. Liczba pierwsza p jest nazywana liczbą pierwszą Bluma, jeśli p = 
3 (mod 4). 

Aby udowodnić, że algorytm BBS jest bezpieczny, warto spojrzeć na kolejny 
problem, którego dowód nie zostanie tutaj przedstawiony. 


Twierdzenie 5. Niech n= pq będzie wynikiem mnożenia dwóch różnych liczb 
Bluma. Wtedy każda reszta kwadratowa x modulo n ma cztery różne pierwiastki 
kwadratowe. Dokładnie jeden z nich jest również resztą kwadratową modulo 
i niech yx oznacza ten unikalny pierwiastek. 

Na rys. przedstawiono cztery pierwiastki x oraz ich lokalizację w Z5,. Po- 
wyższe twierdzenie zwraca uwagę na pytanie: mając x e QR,, co jest analogią dla 
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QRn 


Rys. 8.4: Symboliczna mapa Z. 


unikalnego pierwiastka yx. Korzystając z tego problemu można pokazać podsta- 
wową redukcję świadczącą o bezpieczeństwie BBS. 

Załóżmy posiadanie algorytmu A, który otrzymując na wejściu sekwencję al- 
gorytmu BBS: bo,..., bi, daje na wyjściu b_; z pewnym prawdopodobieństwem. 
Innymi słowy, przewiduje sekwencję z lewej. Mając resztę kwadratową modulo x, 
można wygenerować sekwencję by, ..., b; jak w algorytmie i podać ją do A. Wtedy 
A znajdzie b_; = parzystosé(yx) z takim samym prawdopodobieństwem suk- 
cesu jak wcześniej. Niech ten nowy algorytm nazywa sie A’. Teraz, korzystając 
z przedstawionego dalej twierdzenia 11, można zbudować algorytm B decydu- 
jący o kwadratowej parzystości modulo z takim samym prawdopodobieństwem 
sukcesu, oraz wiadomo, że B działa w czasie wielomianowym, jeśli A’ również. 
Oznacza to, iż jeśli algorytm A działający w czasie wielomianowym może przewi- 
dzieć sekwencję z prawdopodobieństwem 5 +6, gdzie 6 jest niezerowa, to istnieje 
algorytm B decydujacy o reszcie kwadratowej modulo z prawdopodobienstwem 
5 +6, co zaprzecza QRA. Dowodzi to, ze BBS jest kryptograficznie slinym genera- 
torem liczb pseudolosowych. 

Należy teraz dowieść redukcji z problemu decydowania o parzystości v x do 
problemu decydowania o resztach kwadratowych modulo. Aby to zrobić, ko- 
nieczne jest wprowadzenie paru pojęć. Poniższy lemat opiera się naizomorfizmie 
dowiedzionym przez definicję „Chinese Remainder”. 


Lemat6. Niech n= pq będzie wynikiem mnożenia dwóch różnych liczb pierw- 
szych, wtedy 
xe QR, + x mod pe QRpAx mod q€ QRp 


Lemat 7. Mając liczbę pierwszą p, 
p=3(mod4)n-le QNRp 
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Lemat8. Niech n= pq będzie wynikiem mnożenia dwóch różnych liczb Bluma. 
Wtedy x oraz —x mają ten sam symbol Jacobiego (dowód pozostawiono czytel- 
nikowi). Zostanie teraz udowodnione, że cztery pierwiastki x na symbolicznej 
mapie (rys.[8.4) zostały rozmieszczone właściwie. 


Lemat 9. Funkcja x — x? jest funkcją 2-1 na Z*(+1) gdy n = pq jest wynikiem 
mnożenia dwóch liczb Bluma. 


Lemat 10. Niech n= pq gdzie pi q sa liczbami pierwszymi Bluma. Dla wszyst- 
kich x € Z,(+1), które 


x € QR, > parzystość(x) = parzystość(V x?). 


Znalezienie parzystości v x jest tak samo trudne jak decydowanie o reszcie 
kwadratowej modulo. Mówi o tym następujące twierdzenie: 


Twierdzenie 11. Mając algorytm A znajdujący parzystość x można skonstru- 
ować inny algorytm B, który będzie decydował o reszcie kwadratowej modulo x. 
Oba algorytmy mają jednakowe pradopodobieństwo sukcesu. 

Korzystając z tych twierdzeń można pokazać, że algorytm BBS jest algoryt- 
mem bezpiecznym. 


8.9. Testowanie algorytmów pseudolosowych 


8.9.1. Cele testowania algorytmów 


Od algorytmów pseudolosowych wymaga się gwarancji, że wygenerowane wg 
nich liczby mają rozkład jak najbardziej zbliżony do losowego. W testowaniu 
generatorów dużo ważniejsze jest , aby nie zaakceptować złego generatora, niż 
odrzucić generator poprawny. Jest to oczywiste ze względów związanych z za- 
stosowaniem generatorów liczb pseudolosowych. Obecnie istnieje wiele testów 
poprawności działania algorytmów. Podstawowe cechy, którymi powinny się ce- 
chować dobre generatory, to [1]: 


1. Jednorodność - w każdym punkcie generowanego ciągu prawdopodobieństwo 
wystąpienia zera bądź jedynki jest takie samo, równe 1 

2. Skalowalność -każdy podciąg ciągu, który pozytywnie przeszedł dany test, 
także powinien uzyskać wynik pozytywny. 

3. Zgodność - zachowanie generatora musi dawać podobne rezultaty niezależnie 
od początkowej wartości. 


Każdy z testów sprawdza zachowanie w pewnym środowisku, czyli testuje wy- 
stąpienie pewnej negatywnej cechy. Dlatego, aby w ogóle mówić o jakości gene- 
ratora, należy wykonać testy przy użyciu pakietu lub specjalnego testu pod kon- 
kretne zastosowanie (np. obliczenia numeryczne, kryptografia, gry losowe) [1]. 
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8.9.2. Metody analizy wyników 


Poniżej zostanie przedstawionych kilka testów pochodzących z pakietu Die- 
Harder, który jest odpowiednikiem starszego i uznanego za jeden z najlepszych 
pakietu DieHard. Poza testami, stosuje się również analizę statystyczną. Ce- 
lem jest otrzymanie wartości mówiącej, z jakim prawdopodobieństwem mamy 
do czynienia z dobrym generatorem. 


Test Kolmogorova-Smirnova Test ten polega na znalezieniu maksymalnej war- 
tości odchylenia wzorcowego rozkładu od wyników uzyskanych z doświadczenia: 


D=max|K(a;) — F(a;)| 


dla każdego i, dla którego istnieje wynik próby. Wartość A obliczana jest jako ilo- 
czyn D i pierwiastka liczebności, następnie porównywana z A krytyczną i wynik 
pozwala nam stwierdzić zgodność rozkładów. 


Test y? W przypadku, gdy sam test wymaga badania zgodności rozkładów naj- 
częściej stosuje się test y?, dany wzorem: 


n O,-E; 
=r i iy? 
i=1 Vi 


gdzie O; to wartość doświadczalna, E; to wartość wzorcowego rozkładu, o; to 
odchylenie standardowe, n to ilość pomiarów. 


Birthdays test Test urodzin wykorzystuje „paradoks urodzin”, czyli szansę, że 
w grupie osób znajdą się osoby, które mają urodziny tego samego dnia. Dla po- 
trzeb testu grupa liczy 512 „osób”, a dzień roku określa 24-bitowa liczba. Zliczane 
są odległości pomiędzy datami urodzin, dla dobrego generatora rozkład powie- 
nien być podobny do rozkładu Poissona. 


Overlapping 5-Permutations test Test działa na milionie 32-bitowych liczb. 
Ciąg jest dzielony na 5-elementowe, pokrywające się podciągi, każdy z nich może 
być w jendym z 120 stanów wybranych pod względem kolejności liczb w ciągu, 
wystąpienia poszczególnych stanów są zliczane. Potem wyniki są statystycznie 
porównywane do danych wzorcowych otrzymanych z rozkładu normalnego. 


32x32 Binary Rank test Test operuje na macierzach o wymiarach 31x31. Z 31 
wylosowanych liczb 32-bitowych wybierane są pierwsze bajty i macierz zostaje 
zapełniona poszczególnymi bitami. Następnie liczony jest rząd macierzy i su- 
muje ich wystąpienia. Następnie wykonuje się test y? w odniesieniu do genera- 
tora idealnego. 


6x8 Binary Rank test Analogiczny do poprzedniego, główna różnica to rozmiar 
macierzy. 
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Bitstream test Test analizuje ciąg liczb losowych jako ciąg znaków o alfabecie 
011, ciąg dzieli się na dwudziestoliterowe pokrywające się słowa. Test liczy ilość 
słów, które nie wysąpiły w ciągu składającym się z 22! pokrywających się słów, 
przy istniejących 22% możliwych kombinacjach tworzących słowa. 


Overlapping Pairs Sparse Occupance test Test rozpartuje dwuliterowe słowa 
z alfabetu o 1024 literach, każda litera jest wyznaczana z dziesięciu bitów wy- 
branych z 32-bitowej liczby losowej z testowanego ciągu. Obliczana jest liczba 
brakujących możliwych słów. 


Overlapping Quadruples Sparce Occupancy test Podobnie jak poprzednio, ale 
zmienia się liczba liter w słowie (na 4) i liczba liter (na 32). 


DNA test Test operuje na alfabecie 4-literowym: C, G, A, T (stąd analogia do 
DNA), litera jest ustalana na podstawie dwóch bitów z testowanego ciągu, każde 
słowo ma 10 liter. Podobnie jak poprzednio, obliczane sa słowa, które nie wystą- 


piły. 


Count the 1s (stream) test Kolejny test operujący na słowach i alfabecie, ale 
inaczej tworzonych. Traktuje ciąg liczb jako strumień bajtów, z których każdemu 
przyporządkowuje literę w zależności od tego, ile dany bajt zawiera jedynek. 

Jest to tylko niewielka część najbardziej znanych algorytmów testowania ge- 
neratorów liczb pseudolosowych. Należy dodać, iż nigdy nie ma gwarancji, że dla 
algorytmu, który poprawnie przeszedł n testów, test n + 1 również da pozytywny 
rezultat. Wynika stąd, że testując algorytmy celem nie jest dowieść ich popraw- 
ności, ale pokazać, że nie są niepoprawne. 


8.10. Przykłady implementacji 


Obecnie liczby pseudolosowe mają bardzo szerokie zastosowanie, głównie je- 
Sli chodzi o zagadnienia związane z ochroną danych oraz szyfrowaniem. Od cza- 
sów słynnych polskich matematyków, którzy rozszyfrowali Enigmę, postęp w roz- 
woju kryptografii sprawił, że trwa obecnie wojna na „największą liczbę pierwszą”. 
To właśnie sposoby generowania ciągów liczb tak, by były one jak najbardziej zbli- 
zone do losowych są obecnie zadaniem postawionym przed kryptografami. Liczy 
się więc przede wszystkim moc obliczeniowa, gdyż algorytmy używane w szy- 
frowaniu danych mają matematyczne dowody na niedeszyfrowalność. Oczywi- 
ście nie jest to jedyne wykorzystanie liczb pseudolosowych, co zostało wytłusz- 
czone wcześniej. W tej publikacji postarano się przytoczyć dwa przykłady zasto- 
sowań generatorów przedstawionych w poprzednich podrozdziałach. Pierwszy 
z nich posłuży za wizualizację działania algorytmów: liniowego oraz kwadrato- 
wego BBS. 
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8.10.1. Wizualizacja 


Wyświetlacz graficzny Siemens S65 Do wizualizacji wykorzystano wyświetlacz 
graficzny Siemens S65. Wyświetlacz posiada rozdzielczość 132 na 176 piksli i 
16-bitową skalę kolorów. Jego wymiary to 38,20 na 55,80 mm. Jest on wyko- 
rzystywany w telefonach komórkowych Siemens S65, M65, CX65, SK65 i Nokia 
6100. Z kontrolerem sterującym komunikuje się za pośrednictwem protokołu SPI. 
Szczegóły dotyczące komunikacji z wyświetlaczem opisane zostały w [8]. 

Warto zwrócić uwagę na porównanie czasów działania algorytmów. Liniowy 
generator jest zdecydowanie szybszy od kwadratowego generatora BBS, co jest 
zgodne z teorią. Jak już wspomniano w podrozdziale dotyczącym generatora 
BBS, nie generuje on wszystkich liczb z zakresu, dlatego losowanie sprowadza się 
do wyznaczenia liczby modulo 2. W związku z tym aby wygenerować liczbę 16- 
bitową, potrzebną w procesie wyświetlania piksela na LCD, należy taką operację 
przeprowadzić 16 razy. Tym samym można powiedzieć, że generator BBS powi- 
nien być w tym przypadku około 16 razy wolniejszy od generatora liniowego. 


8.10.2. Szyfrowanie XOR 


Innym zastosowaniem może być użycie generatora BBS jako hasła dla pro- 
stego algorytmu szyfrującego XOR. Za platformę wizualizacyjną działania algo- 
rytmu mogą posłużyć proste moduły transmisji bezprzewodowej podłączone do 
komputerów PC. Przedmiotem testu jest sprawdzenie, czy wiadomość wysłana 
drogą radiową, uprzednio zaszyfrowana, zostanie poprawnie odszyfrowana, przy 
założeniu takiego samego algorytmu szyfrującego i deszyfrującego (co sprowadza 
się do ustalenia takich samych parametrów dla algorytmu BBS). 


Algorytm XOR Ideą algorytmu jest zastosowanie operacji bitowej XOR. Aby zro- 
zumieć jej działanie, należy prześledzić w poniższej tab. 


Tab. 8.3: Tabela XOR dla wejściowych A i B. 


A | B | AXORB 
0/0 0 
0} 1 1 
1 | 0 1 
1 | 1 0 


Wyraźnie widać, że funkcja XOR zwraca 1, gdy parametry wejściowe są różne, 
natomiast 0, gdy są takie same. Co jest najistotniejsze dla działania algorytmu, 
(A XOR B)XOR B = A, wiec w łatwy sposób można odszyfrować tekst, znając ha- 
sło. Widać również, że aby tekst mógł zostać zaszyfrowany, musi najpierw zostać 
zapisany w postaci binarnej. 

Aby szyfr XOR mógł być uważany za bezpieczny, należy zastosować się do 
trzech reguł: 
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e hasło musi mieć długość co najmniej taka, jak tekst do zaszyfrowania, 


e hasło musi być ciągiem pseudolosowym zer i jedynek, 
e hasło musi być jednorazowe. 


Moduły bezprzewodowe Przedstawiony powyżej algorytm został zaimplemen- 
towany w bezprzewodowych modułach podłączanych do USB, wykonanych 
przez studentów Robotyki (przedstawione na rys.[8.5). 


a) 


b) 


Rys. 8.5: Widok płytki z RFM12b oraz mikroprocesorem ATmega32u4: a) góra b) 
dół. 


Mikrokontroler Jednostką centralną modułu jest mikrokontroler Atmega32u4 
z rodziny AVR. Jest jeden z najnowszych mikrokontrolerów w tej rodzinie, wyróż- 
niający się przede wszystkim posiadaniem wbudowanego sprzętowego kontro- 
lera USB i zastosowaniem pętli PLL (mnożenia częstotliwości) dzięki czemu przy 
taktowaniu 8/16 MHz układ może obsługiwać magistralę USB 2.0 w trybie Full- 
Speed. Pełna dokumentacja mikrokontrolera jest dostępna pod adresem [9]. 


Moduł radiowy Zdecydowano się na zastosowanie modułu RFM12b firmy 
HOPE RE Jest to tani moduł ISM ogólnego zastosowania pracujący z częstotli- 
wością 868MHz. Pełna dokumentacja jest dostępna pod adresem [10]. 
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8.11. Podsumowanie 


Schemat montażowy Zaprojektowano i wykonano płytkę (rys. w techno- 
logii montażu powierzchniowego, dzięki czemu uzyskano dość kompaktowe wy- 
miary urządzenia. 


Rys. 8.6: Schemat montażowy układu. 


Komunikacja poprzez USB Do komunikacji poprzez USB została użyta biblio- 
teka LUFA. 


8.11. Podsumowanie 


Zagadnienia związane z komputerową pseudolosowością są obecnie jednymi 
z prężniej rozwijających się. Ma to związek zarówno z rozwojem informatyzacji 
(zastosowanie liczb pseudolosowych w grach, specjalistycznych programach) jak 
i zabezpieczeń (generowanie szyfrów). Warto jednak zwrócić uwagę na możli- 
wości zastosowań poszczególnych algorytmów. Wyraźnie widać to, porównując 
działanie algorytmu liniowego oraz BBS w dwóch różnych zastosowaniach. 

Algorytm liniowy, jako bezsprzecznie szybszy od kwadratowego znajduje za- 
stosowanie w prostych modelach korzystających z pseudolosowości, jak cho- 
ciażby podświetlanie pikseli na wyświetlaczu LCD. W tym przypadku używanie 
algorytmu kwadratowego jest nieprzydatne ze względu na to, że wygenerowanie 
16-bitowej liczby zajmuje mu 16 razy więcej czasu - związane jest to z faktem, 
że generuje on tylko 0 lub 1. Poza tym posiada zdecydowanie krótszy okres, co 
wiąże się z koniecznością zmian warunków działania algorytmu BBS po pewnym 
czasie. 

Jeśli natomiast weźmie się pod uwagę zagadnienia szyfrowania, to w powyż- 
szym porównaniu generator kwadratowy okazuje się bezkonkurencyjny. Zaim- 
plementowany przy jego pomocy szyfr XOR, pod warunkiem spełnienia pewnych 
założeń, jest nie do złamania. 

Warto jednak pamiętać, że algorytm, który w tej chwili daje bezpieczeństwo, 
już niedługo może okazać się zupełnie bezużyteczny. 
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ROZDZIAL 


NIEPEWNOŚĆ W METODACH LOKALIZACJI 
ROBOTA 
M. Opatka, Ł. Kucharczyk 


Algorytmy sterowania, systemy decyzyjne czy tzw. problem solvers znajdują 
zastosowanie w wielu dziedzinach techniki, pozwalając na automatyzację dowol- 
nych procesów. Poprawność działania wymienionych narzędzi w dużej mierze 
zależy od jakości informacji dostarczonej przez użytkownika, wyników pomiaro- 
wów bądź sporządzonego modelu świata. Niestety, dane te zazwyczaj obarczone 
są błędem: luką w informacji, pomyłką podczas wprowadzania, niepewnością 
pomiarową urządzenia czy uproszczeniem praw fizyki na etapie modelowania. 

Niektóre niepewności można pominąć ze względu na ich niewielki wpływ na 
wynik końcowy pracy systemu (tzw. algorytmy odporne), niektóre natomiast są 
na tyle istotne, że ich wystąpienie uniemożliwia działanie algorytmu. Konieczne 
jest zastosowanie metody pozwalającej na uwzględnienie wpływu niepewności, 
bądź zredukowanie jej rozmiaru. Propozycje rozwiązania tego problemu poja- 
wiały się w literaturze bardzo często — głównie ze względu na praktyczny aspekt 
zagadnienia. W pozycji [I] przedstawiono matematyczne podstawy reprezenta- 
cji informacji niepewnej i niepełnej. W pracy [2] przedstawiono przykład zasto- 
sowania modelu sensorów (obarczonych niepewnością pomiarową) w rozwią- 
zywaniu klasycznego problemu w reprezentacji STRIPS przy niepełnym opisie 
świata. Książka [3] zawiera szczegółowy opis wielu metod planowania działań 
przy niepewnościach pomiarowych — w tym matematyczne modele czujników 
wraz z analizą ich przydatności. Pozycja [4] przedstawia zastosowanie statystycz- 
nych metod w problemach robotycznych. 

W niniejszym rodziale skupiono się metodach lokalizacji mobilnego robota 
w środowisku z niepewną informacją. W podrozdziale [9.1] przedstawiono pod- 
stawy rachunku prawdopodobieństwa, wraz z wyjaśnieniem oznaczeń stosowa- 
nych dalej. Następnie w podrozdziale [9.2] omówiono kilka popularnych metod 
lokalizacji robota przy niepownościach pomiarowych. W podrozdziale|9.3|przed- 
stawiono przykładową impelmentację algorytmu filtracji Kalmana. 


9. Niepewność w metodach lokalizacji robota 


9.1. Podstawowe pojęcia z rachunku 
prawdopodobieństwa 


Większość metod reprezentacji informacji niepewnej, czy niepełnej, opiera się 
na rachunku prawdopodobieństwa. Poniżej przedstawiono podstawowe pojęcia 
z tej dziedziny potrzebne do prawidłowego zrozumienia dalszej części tekstu, [4]. 

Zmienne losowe przyjęto oznaczać dużymi literami, np. X, zaś wartości jakie 
przymuje - literami małymi (np. x). Prawdopodobieństwo, że zmienna losowa X 
przyjmuje wartość x oznacza się przez 


p(X =x) (9.1) 


Funkcja prawdopodobienstwa P : X — R! spełnia 


V(xEX) plx) >0, (9.2) 
p(Q)=1, (9.3) 
V(x1,%2 E X| N x2 =Ø) P(x, U x2) = P(x) + P(x2) (9.4) 


Prawdopodobienstwo wystapienia jakiegokolwiek zdarzenia ze zbioru za- 
drzen elementarnych Q wynosi 1. Dla prawdopodobieństw o rozkładzie dyskret- 
nym zachodzi: 


Y p(X =x) =1, (9.5) 
xeQ 
zaś dla rozkładów ciągłych 
f p(x)dx=1. (9.6) 
xeQ 


Prawdopodobieñstwo łączne zajścia kilku zdarzeń oznaczane jest przez: 
p(x,y) =p(X= xi Y = y), (9.7) 
w przypadku gdy zdarzenia X oraz Y są niezależne zachodzi 
p(x, y) = p(x): ply). (9.8) 


Prawdopodobieństwo, że zmienna X przyjmie wartość x gdy wiemy, ze 
zmienna Y ma wartość y, określa prawdopodobieństwo warunkowe 


P(xly) = pX=x|Y=y) (9.9) 
wyrażane wzorem 
p(x, y) 
= dl >0. 9.10 
p(xly) 56 a py (9.10) 


Gdy zdarzenia X oraz Y są niezależne, prawdopodobieństwo to można zapisać 


zgodnie z (9.8) 
p(xly) = pa p(x) (9.11) 
DO) i E 
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9.1. Podstawowe pojecia z rachunku prawdopodobienstwa 


Prawdopodobieństwo warunkowe jest związane z prawopodobieństwo catko- 
witym, co wyrażane jest wzorem: 


p(x) => pyp) (9.12) 
y 


p(x) = | pain pody. (9.13) 


Podstawą wnioskowania oraz większości metod opisywanych w dalszej części 
rozdziału jest reguła Bayes'a, pozwalająca wyrazić prawdopodobieństwo warun- 
kowe w następujący sposób: 


pyl) p(x) 


9.14 
aD (9.14) 


p(xly) = 


Zależność ta może być wykorzystywana do aktualizowania wartości wierzeń (np. 
aktualnie estymowanej wartości stanu) po pojawieniu się np. nowej informacji 
z czujników. 

Zwykle, w prezentowanych metodach przyjmuje się rozkład normalny zmien- 
nej losowej 


1 (xy? 
p(x) = exp ) (9.15) 
V 210°) 20° 
a dla rozkładów wielowymiarowych 
1 
p(x) = det(2n2) "'* exp (-za- WTE! x- m) ; (9.16) 
gdzie 2 oznacza dodatnio półokreśloną macierz kowariancji. 
Wartość oczekiwana zmiennej losowej X jest wyznaczana wg wzoru: 
E[X] = | xpioas =p. (9.17) 
Momentem n-tego rzędu dla zmiennej losowej X nazywa się wartość 
Un = E[X"]. (9.18) 
Wariancją zmiennej losowej X jest zmienna losowa 
o° (X) = E[(X — p)*] = E[X?] - E[X]?. (9.19) 


Natomiast kowariancją dwóch zmiennych losowych X i Y nazywamy 
zmienną losową 


cov(X,Y)=E[(X-E[X]):(Y -E[Y])]=E[X:Y]-E[X]-E[Y]. (9.20) 
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9. Niepewność w metodach lokalizacji robota 
9.2. Metody lokalizacji robota 


Jednym z podstawowych problemów robotyki jest lokalizacja. W problemie 
tym robot (mobilny), wyposażony w mapę terenu (pomieszczenia), musi przy po- 
mocy dostępnych czujników określić swoje położenie, orientację. Odczyty z czuj- 
ników robota obarczone są błędem, co prowadzi do niepewności w estymacji po- 
łożenia i złej oceny otoczenia. Na przykład przy stosowaniu czujników ultradź- 
więkowych pojawiają się odbicia fali - prowadzi to do powstawania sztucznych 
przeszkód (odbitych obrazów przeszkód rzeczywistych). 


Rys. 9.1: Przykładowy obraz sceny na podstawie informacji z czujników. 


W literaturze wyróżnia się wiele wariantów problemu lokalizacji. Poniżej zo- 
stała przedstawiona zbiorcza klasyfikacja. Lokalizacja robota może być zarówno 


aktywna jak i pasywna [3]. 
Lokalizacja pasywna pozwala robotowi na estymację położenia i orientacji na 


podstawie informacji z czujników oraz na podstawie przewidywania efektów 
podjętych działań. 


Lokalizacja aktywna wymaga od robota dokonywania działań mających na celu 
zmniejszenie niepewności lokalizacji — np. eksploracja terenu w celu wykrycia 
charakterystycznych obiektów. 


Problem lokalizacji można także klasyfikować ze względu na zakres niepewności 


(4). 


Lokalizacja lokalna jest najprostszą odmianą zagadnienia lokalizacji - śledze- 
niem pozycji. W chwili początkowej położenie i orientacja robota są znane 
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9.2. Metody lokalizacji robota 


— informacja o aktualnym potozeniu ustalana jest na podstawie filtrowania 
zakłóceń nałożonych na odczyty czujników mierzących realizację sterowań. 


Lokalizacja globalna zakłada, że początkowe położenie robota nie jest znane. 
Zwykle w skład zadania lokalizacji globalnej wchodzi element śledzenia po- 
zycji robota, czyli zadanie lokalizacji lokalnej. 


Dodatkowo dla lokalizacji globalnej wyróżnia się problem porwanego robota 
[3], w którym zakłada się możliwość przeniesienia (teleportacji) robota w do- 
wolne miejsce mapy w trakcie trwania zadania. Zagadnienie to jest najtrudniej- 
sze spośród wszystkich rodzajów lokalizacji. 

Dodatkowe utrudnienia w zadaniu lokalizacji mogą wynikać z doboru środo- 
wiska. Można wyróżnić dwa podstawowe rodzaje [4]: środowisko statyczne — czyli 
takie w którym jedynym poruszającym się obiektem jest robot; środowisko dyna- 
miczne — w którym położenie obiektów na mapie zależy od czasu. 

Dla środowiska dynamicznego zmiany mogą być deterministyczne, probabli- 
styczne określone pewnym rozkładem, bądź całkowicie nieprzewidywalne. 


9.2.1. Rodzaje czujników 


W celu lokalizacji, a zatem estymacji stanu, robot musi zostać wyposażony 
w odpowiednie czujniki. Układ robota wraz z czujnikami określony jest przez 
równanie stanu oraz równanie wyjścia 


|. 2 qeQ, ueU (9.21) 


y=h(q) yey 


gdzie Q jest przestrzenią stanu odpowiadającą możliwym konfiguracją robota, U 
jest przestrzenią sterowań przenoszących układ z jednego stanu do następnego, 
a Y odpowiada za przestrzeń wyjściową, w której obserwowane jest zachowanie 
systemu. 

Równanie wyjścia odpowiada informacji uzyskanej z czujnika. Zadaniem lo- 
kalizacji jest zbudowanie funkcji obserwatora 


ĝ = k(y,q), (9.22) 


która pozwoli estymować stan na podstawie informacji z czujników. W pozycji 
wyróżniono trzy typy czujników: 


1. Czujniki stanu — realizowane jako funkcja h : Q > Y. Wynik działania jest cał- 
kowicie deterministyczny. 

2. Czujniki właściwości stanu — zawierają zakłócenia y(q), tak więc obserwacja 
wyjścia wyraża się zależnością y = h(q, y). 

3. Czujniki oparte na historii — ich działanie oparte jest na informacji zależ- 
nej od pewnej ilości stanów poprzednich i działań w nich podjętych, yk = 
hęy(q1,...,qy). 


Poniżej przedstawiono kilka przykładów czujników B]: 
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9. Niepewność w metodach lokalizacji robota 


Czujnik zerowy niezależnie od stanu zwraca wartość 0, tak więc jst określony 
przez zależność y = h(q) = 0. Czujnik ten nie niesie żadnej informacji o sta- 
nie — może służyć do modelowania nieaktywnych czujników, bądź czujników 
uszkodzonych. 


Czujnik znaku pozwala poznać znak zmiennej stanu q, opisany jest wzorem 
y = h(q) = sgn(q). Możliwe jest jedynie uzyskanie informacji na temat po- 
łożenia względem q = 0. Czujnik tego typu używany jest między innymi 
w algorytmach zmodyfikowanego jakobianu dla przejścia przez osobliwości: 
y = sgn(det[J(q)]), gdzie J(q) jest jakobianem manipulatora. 


Czujnik wybiórczy dostarcza informacji jedynie o pewnej części zmiennych 
stanu. Przykładowo, gdyby stan robota był reprezentowany jako współrzędne 
q = (i, j) pól na prostokątnej planszy, możliwa byłaby do uzyskania jedynie 
informacja o jednej ze współrzędnych; y= h(i, j) = i. Sytuacja taka może być 
spowodowane istnieniem nieobserwowalnej części w przestrzeni stanu — któ- 
rej zmiany nie powodują zmian na wyjściu z systemu. 


Czujnik z zakłóceniem pozwala jedynie na estymację stanu z dokładnością do 
zakłócenia y; y= h(q,w) = q + y. Zakłócenie może być zmienną losową 
o znanych parametrach bądź całkowicie niedeterministyczne. 


Czujnik znaku z zakłóceniem analogicznie do czujnika znaku wyraża się funk- 
cją y = h(q,w) = sgn(x + w). Podobnie jak w przypadku czujnika z zaktóce- 
niem y jest zmienną losową. 


Czujnik z opóźnieniem pozwala poznać informację tylko przeszłych warto- 
ściach zmiennych stanu. Dla przykładu, jeśli stany będą mierzone w dyskret- 
nych chwilach czasu: y; = q;_k, Opóźnienie k może być stałe bądź zmienne. 
Czujnik może także podawać niepełne informacje o przeszłym stanie. 


Czujnik parzystości pozwala uzyskać informacje o parzystości aktualnych war- 
tości zmiennych stanu. Może być bardzo użyteczny np. w przypadku loka- 
lizacji lokalnej robota, przy obecności zakłóceń kierunku ruchu, na planszy 
złożonej z pól o współrzędnych określonych jako q = (i, j). Znając stan po- 
czątkowy robot jest w stanie na podstawie odczytów z czujnika całkowicie wy- 
eliminować niepewność konfiguracji. 


Niektóre z wymienionych powyżej czujników pozwalają rozwiązać problem 
lokalizacji dość sprawnie. Niektóre natomiast cechują się niepewnością, bądź 
niepełnością, dostarczanych danych. W celu minimalizacji tych wad konieczna 
jest filtracja informacji uzyskanych z czujników oraz ich fuzja. 

W celu minimalizacji błędu estymacji konfiguracji można także odpowied- 
nio zaplanować ruch. Wykorzystując np. metody nawigacji przybrzeżnej zmniej- 
sza się błąd wynikający z niedokładności sterowań, czy niepewność generowaną 
przez czujniki odometryczne. 
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9.2. Metody lokalizacji robota 


Możliwe jest też estymowanie stanu metodą predykcji efektu sterowania. Przy 
znanym sterowaniu u, i estymowanym poprzedniej konfiguracji q;-1 należy wy- 
znaczyć q;. Zadanie to można rozszerzyć o uwzględnianie niepewności samego 
sterowanie (np. w przypadku systemów z dryfem o nieznanej, zmiennej charak- 
terystyce). Czujnik predykcyjny opisujemy jako 


g=w(q,u,y). (9.23) 


9.2.2. Filtr Bayes’a 


Podstawowym narzędziem służącym do wnioskowania w obliczu niepewno- 
ści są Filtry Bayes'a, [4]. Pozwalają one uzyskać bardziej precyzyjną informację 
biorąc pod uwagę nowo otrzymane informacje dodatkowe. 

W problemie decyzyjnym, czy podczas lokalizacji robota, brany jest pod 
uwagę rozkład prawdopodobieństwa reprezentujący za tzw. wierzenia. Rozkład 
ten określa jakie jest prawdopodobieństwo, że robot jest w danej konfigura- 
cji, przy uwzględnieniu dotychczas otrzymanych informacji sensorycznych oraz 
ostatnio podjętych działań. 

Rozkład prawdopodobieństwa wierzeń w chwili czasu t będzie oznaczany 
przez bel(q;), co można wyrazić jako prawdopodobieństwo warunkowe zależne 
od danych sensorycznych oraz ostatnich sterowań 


bel(qz) = plqrly1, Y2,..., Yt, U1,U2,..., Ut) (9.24) 


W zadaniu lokalizacji w każdej chwili czasu dostępny jest rozkład wierzeń. Tak 
więc można przewidywać obecną konfigurację robota jeszcze przed wykonaniem 
pomiaru 


bel(q:) = p(qrly1, V2;---,Pr-1, U1, U2, «++, Ut), (9.25) 


Wyliczenie bel(q;) na podstawie poprzedniego rozkładu wierzeń, bel(q,), na- 
zywa się naniesieniem poprawki bądź uaktualnieniem informacji z czujników [4]. 
Filtr Bayesa pozwala wyliczyć rozkład prawdopodobieństwa wierzeń na 
podstawie wyników pomiarów i wybranych sterowań. Niepewność pomiarów 
uwzględniana jest przy wyliczaniu wartości bel(q,) na podstawie bel(q;). 

W pierwszym kroku algorytmu wyliczane są prawdopodobieństwa osiągnię- 
cia wszystkich konfiguracji na podstawie predykcji efektu sterowania — wyliczenie 
uwzględnia rozkład wierzeń z poprzedniej chwili czasu. 

Drugi krok algorytmu prowadzi do zmniejszenia niepewności estymacji obec- 
nej konfiguracji poprzez dodanie informacji pochodzącej z czujników — przejście 
z bel(q;) do bel(q;). 

Algorytm zapisany w pseudokodzie [4] przedstawiony został na rys. Do 
poprawnego działania algorytmu konieczne jest podanie rozkładu prawdopodo- 
bieństwa wierzeń w chwili £ = 0. Kolejne wartości wyliczane są rekurencyjne 
zgodnie z zasadą działania algorytmu. Matematyczny dowód poprawności dzia- 
łania algorytmu został przedstawiony w pozycji [4]. 
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Bayes_filter(bel(q;—1),Uz,V1) 
1. for all q; do 
2. bel(qr) =f p(qrlur qr-)bel(q;-1)dq1-1 


3. bel(qí) = p(y:lqpbel(q;) 
4. endfor 


5. return bel(q;) 


Rys. 9.2: Filtr Bayes'a. 


9.2.3. Filtr Kalmana 


Filtr Kalmana został szczegółowo opisany w [5] oraz w [4]. Jest jednym z tak 
zwanych filtrów Gaussowskich. Do poprawnego działania wymaga by wszystkie 
parametry losowe posiadały rozkład normalny 


p(x) = det(2n2) "'* exp 30 =p) = =). (9.26) 


Aby jednoznacznie określić rozkład normalny wystarczy podać jego dwa pierwsze 
momenty centralne: macierz kowariancji = oraz średnią u. Dodatkowo system 
musi należeć do klasy liniowych systemów Gaussowskich, a co zatym idzie muszą 
być spełnione następujące własności [4]: 


1. Prawdopodobieństwo zmiany stanu p(q;|u;, q;-1) musi być funkcją liniową 
z dodanym szumem Gaussowskim e 


qt = Arqi_1 + Brut + €¢. (9.27) 


Dokładniejsze informacje na temat opisu liniowych systemów w przestrzeni 
stanu zawiera pozycja [6]. Przestrzeń stanu Q jest n-wymiarowa, przestrzeń 
sterowań U jest wymiaru m. Szum Gaussowski może np. odpowiadać za nie- 
pewność zmiany stanu spowodowaną poślizgiem kół robota. 

Wartość średnia szumu e wynosi 0, a kowariancja R;. Dla takich parametrów 
rozkład prawdopodobieństwa zmiany stanu cechuje się średnią A:q:-1+ Brut 
i kowariancją R; 


P(4tlUt, q1-1) = det(2rR,) 1. 


1 
exp -5(4:- Arqia ~ Br)" Rr! Uqi- Arqi-1 — Brun) - (9.28) 
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Kalman filter(u;-1,2;-1,41, yt) 
1. Hi = Arur-1 + Brut 
2. E¿=A/2, A+R: 
3. Ke =E;C] (CECT +0) 
4. Up =P, + Kt(yt— Crp) 
5. Lp=U-K;C)z;z 


6. return Ut, Èt 


Rys. 9.3: Filtr Kalmana. 


2. Rozkład prawdopodobieństwa czujników także musi być funkcją liniową 
z Gaussowskim szumem 6 
Jt=Ctqi +Ót. (9.29) 


Rozkład zmiennej 6 ma średnią równą 0 i kowariancję Q; co prowadzi do na- 
stępującego rozkładu prawdopodobieństwa czujników 


1 
pidge) = det(2nQ,) *? - exp|--(yr-Ciq07Q; (yr-=Crqn)|. (9.30) 
2 


3. Rozkład prawdopodobieństwa wierzeń bel(qg) w chwili początkowej także 
musi być rokładem normalnym 


bel = -1/2 R ee 
el(qo) = det(212g) exp 5 (40 Lo) Żę (qo—Ho)|. (9.31) 


Działanie filtru Kalmana składa się z dwóch faz podstawowych: 


1. Faza uaktualnienia rozkładu wierzeń przewidując wynik sterowania. 
2. Faza uaktualnienia rozkładu wierzeń poprzez uwzględnienie wyniku pomiaru 
stanu. 


Przyjęte założenia pozwalają zapewnić, że rozkład wierzeń wynikowych bel(q;) 
zawsze będzie Gaussowski, dla każdego t. Dowód matematyczny został przed- 
stawiony w pozycji [4]. Ponieważ rozkłady normalne można jednoznacznie okre- 
Slié poprzez podanie wariancji 2 oraz wartości średniej u, można operować tylko 
na tych wielkościach podczas wyliczania nowego rozkładu wierzeń w chwili na- 
stępnej. Działanie algorytmu zostało przedstawione w pseudokodzie na rys.[9.3] 
W algorytmie dokonywana jest swego rodzaju fuzja dwóch informacji: obarczo- 
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nej niepewnością predykcji konfiguracji na podstawie sterowań w chwili £ oraz 
wyniku pomiaru stanu za pomocą czujników (także cechujących się niepewno- 
ścią wyniku). Na skutek działania filtru Kalmana uzyskujemy rozkład wierzeń 
o mniejszej wariancji, pozwalający dokładniej estymować bieżącą konfigurację 
dt. 


Przykład 


Niech model robota poruszającego się wzdłuż jednej osi będzie opisany funk- 
cją 
qt = A:q1-1+B:Uu¡+€;, (9.32) 
gdzie A = 1, B = 1, oraz normalny rozkład zmiennej €; o wartości średniej 0 i wa- 
riancji R; = 2. Funkcję pomiaru czujnika można zamodelować jako 


y:=1:q:+0,, (9.33) 


gdzie zmienna 6; posiada rozkład normalny o średniej 0 i wariancji Q; = 1. 

Zbiór sterowań wyrazić można za pomocą U = (-4,-3,-2,-1,0,1,2,3,4), 
a przestrzeń konfiguracyjną Q = R. W oczywisty sposób wyniki pomiarów należą 
do przestrzeni Y =R. 

Ponieważ zarówno wyniki pomiarów, jak i predykcja położenia po aplikacji 
znanego sterowania, obarczone są niepewnościami, należy estymować, możliwie 
jak najdokładniej, końcowe położenie robota. 

Niech rozkład wierzeń co do stanu robota w chwili początkowej t = 0 wyra- 
żony będzie funkcją rozkładu normalnego o średniej uy = 5 oraz wariancji Xp = 3 


bel(qo) = (3V2n) le 185+ 40) (9.34) 


Niepewność położenia robota można przedstawić graficznie (rys.[9.4). Z powodu 
dużej wartości wariancji określenie dokładnego położenia początkowego robota 
jest niemożliwe. Konieczne jest wykonywananie akcji pozwalających na zmniej- 
szenie niepewności — co prowadzi do lokalizacji aktywnej. 

Dokonując pomiaru położenia otrzymuje się rozkład wierzeń o dużo 
mniejszej wariancji, przedstawiony na rys.[9.4] 

Wykonując ruch w prawo o cztery jednostki (uj = +4), przy stanie poczatko- 
wym oraz przy założonych wcześniej niepewnościach pomiarowych i pre- 
dykcyjnych otrzymuje się rozkład wierzeń z predykcji 


Bel(qy) = (2V2n) teat Hy (9.35) 


Wykonując pomiar w stanie qı uzyskuje się wartość y, = 8, co prowadzi do roz- 
kładu prawdopodobieństwa 


bel(y1) = (V2n) let” (9.36) 


Aby dokonać połączenia obu nowo uzyskanych informacji, przy uwzględnieniu 
rozkładu wierzeń bel(qo) z poprzedniej chwili czasu, należy zastosować algorytm 
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0.5 b - 


“55 0 5 10 


Rys. 9.4: Rozkład prawdopodobieństwa po wykonanym pomiarze położenia — li- 
nia pogrubiona; rozkład początkowy — linia cienka. 


filtru Kalmana. W wyniku jego działania uzyskuje się rozkład wierzeń o wartości 
średniej [1 = 8.166 i wariancji 2, = 0.833 


bel(qy) =0.478e 072008.166+q1)”. (9.37) 


Kolejne rozkłady prawdopodobieństwa, wraz z końcowym rozkładem wierzeń zo- 
stały przedstawione na rys.[9.5] 


Rys. 9.5: Zastosowanie filtru Kalmana: linia kropkowana — stan wierzeń począt- 
kowych; linia kreskowana — predykcja położenia; linia kropkowano-kreskowana — 
wykonany pomiar; linia ciągła — wynik filtracji Kalmana. 


Poprawa w dokładności szacowania położenia robota jest znacząca. Wykorzy- 
stanie dodatkowych informacji z czujników oraz predykcja ruchu, po dokonanej 
fuzji informacji, pozwala osiągnąc zadawalające wyniki. Dokładność szacowania 
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Markov_localization(be/(q;_1),u;,V;,M) 
1. for all q; do 
2. bel(qr) = f p(qrlut qr-1, Mbel(qi-dqr-1 
3. bel(q,) = plyelqe, m) bel (qr) 
4. endfor 


5. return bel(q;) 


Rys. 9.6: Lokalizacja Markova. 


zależy w oczywisty sposób od paramatrów czujników i dokładności ruchu robota 
— np. gdy występują jedynie niewielkie poślizgi. 


9.2.4. Lokalizacja Markova 


Algorytm lokalizacji Markova [4] działa w oparciu o filtr Bayes'a (rys.[9.2) przy 
dodatkowym uwzględnieniu mapy otoczenia m. W kolejnych krokach algorytmu 
uwzględniane są możliwe położenia w zależności od wykonanego ruchu oraz wy- 
niki pomiarów z czujników. Schemat działania algorytmu przedstawia rys.[9.6] 

Rozkład wierzeń bel(qo) w chwili czasu t = 0 zależy od doboru zadania loka- 
lizacji. Jeśli położenie robota nie jest znane można przyjąć rozkład jednostajny 
— każdy punkt mapy jest równie prawdopodobny jako stan początkowy. Gdy do- 
stępne są dodatkowe informacje, rozkład prawdopodobieństwa wierzeń należy 
odpowiednio zmodyfikować. W przypadku gdy punkt startowy go jest znany, 
przyjmuje się 


1 qo= 4% 
0 wprzeciwnym wypadku 


bel(qo) = | (9.38) 


W rzeczywistości położenie początkowe znane jest z pewną dokładnością. 
Należy więc przyjąć np. rozkład normalny, którego wariancja będzie odpowia- 
dać niepewności pomiarowej czujników służących do wyznaczenia konfiguracji 
w chwili t = 0. 


Przykład 


Rozważmy holonomicznego robota mobilnego poruszającego się w dwuwy- 
miarowym środowisku. Niech robot zostanie wyposażony w system wizyjny roz- 
poznający dwa typy znaczników pomagających w lokalizacji. Początkowa pozy- 
cja robota nie jest znana — zagadnienie lokalizacji globalnej. Znana jest natomiast 
mapa otoczenia uwzględniająca rozmieszczenie znaczników lokalizujących. 
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W chwili początkowej robot z równym prawdopodobieństwem może znajdo- 
wać się w każdym miejscu pomieszczenia. Sytuacja ta, oraz mapa pomieszczenia 
zostały przedstawione na rys. reffig:markl. Położenie robota w chwili poczatko- 
wej zostało zaznaczone kołem. Po bokach mapy otoczenia zaznaczono rozkłady 
prawdopodobieństwa odpowiadające położeniom robota odpowiednio w osiach 
XiY. 


10 
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Rys. 9.7: Lokalizacja Markowa — początkowy stan wierzeń bel(qo). 


W kolejnej chwili czasu robot dokonuje odczytów z czujników — system wi- 
zyjny rozpoznaje znacznik znajdujący się w pobliżu robota. Sytuacja ta, wraz 
z odpowiednimi rozkładami prawdopodobieństwa przedstawiona została na 
rys. reffigimark2. 

Wykryty znacznik, zgodnie z mapą otoczenia m, może oznaczać cztery różne 
miejsca planszy. Powoduje to zwiększenie prawdopodobieństw punktów plansz 
znajdujących się w pobliży odpowienich znaczników. Położenie robota w dal- 
szym ciągu nie jest znane. 

Podczas ruchu robota odowiednie maksima rozkładu poruszają się wraz z nim 
(rys.[9.9). Następuje niewielkie spłaszczenie rozkładów w wyniku niedokładności 
przewidywania efektu starowań. Gdy robot na skutek ruchu dotrze do miejsca 
w którym zostanie wykryty kolejny znacznik, pojawia się nowa informacja przy- 
datna do lokalizacji. Robot uwzględniają wynik pomiaru i dzięki niemu jest w sta- 
nie dość dokładnie określić swoją aktualną pozycję (rys. reffig:mark4). Ponieważ 
istnieje prawdopodobieństwo, że znaleziony znacznik nie został poprawnie roz- 
poznany, oraz poprzedni model rozkładu prawdopodobieństwa mógł być błędny, 
uzyskany rozkład nie jest unimodalny. 
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Rys. 9.8: Lokalizacja Markowa — uwzględnienie wyników pomiaru. 


0 


Rys. 9.9: Lokalizacja Markowa — przedykcja efektu sterowania. 


9.3. Oprogramowanie 


Aby sprawdzić działanie metody wykorzystującej filtr Kalmana (rys. ref- 
fig:kalman) przeprowadzono testy za pomocą specjalnie do tego celu zaimple- 
mentowanej aplikacji. Aplikacja symuluje zachowanie obiektu opisanego równa- 
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Rys. 9.10: Lokalizacja Markowa — uwzględnienie wyniku pomiaru. 


niami (9.27|[9.29), z dwoma zmiennymi stanu. Obiekt, określany w dalej również 
jako robot lub pojazd, porusza się w dwuwymiarowym środowisku zawierają- 
cym przeszkody będące wielokątami. Kolizje pojazdu z przeszkodami nie są wy- 
krywane ani symulowane, gdyż postawione zadanie tego nie uwzględnia. Prze- 
szkody stanowią jedynie graficzne urozmaicenie sceny i ułatwiają użytkownikowi 
interpretację obserwowanych położeń. 

Danymi wejściowymi programu są macierze definiujące model (A, B i C), ma- 
cierze opisujące czujniki (R i Q), początkowa wartość niepewności położenia Xo, 
rozmiar świata, ścieżka po której ma poruszać się robot, oraz informacje o prze- 
szkodach. Rozmiar świata (szerokość i wysokość), dane dotyczące ścieżki i prze- 
szkód wczytywane są z pliku XML. Macierze definiujące parametry modelu i czuj- 
ników wprowadzane są przez użytkownika w czasie działania programu z wyko- 
rzystaniem interfejsu graficznego. Użytkownik ma możliwość włączenia funkcji 
zapisywania informacji z przebiegu symulacji i podania nazwy pliku do którego 
te dane mają być zapisywane. W programie zaimplementowana została również 
prosta funkcja wygładzająca wczytaną z pliku scieżke. Przed włączeniem symu- 
lacji, użytkownik ma możliwość doboru parametrów tego wygładzania. Zmie- 
niony może być także sposób generowania sterowania u, a sam algorytm Kal- 
mana może być wyłączony. 

Program napisany został w języku C++, z wykorzystanie biblioteki Q14.7 oraz 
niewielkiego fragmentu biblioteki boost. 
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9.3.1. Postać pliku XML 


Poniżej przedstawione zostały rodzaje informacji, jakie wczytywane są przez 
program z pliku XML. Bloki zawierające te informacje powinny znajdować się 
między parą znaczników o dowolnej nazwie, np. <map> i </map>. 


+ Rozmiar świata, podany jako parametry width i height znacznika level_size. 
Jeśli w pliku podanych zostanie więcej niż jeden znacznik określający rozmiar 
świata, wczytane zostaną dane z pierwszego wystąpienia, oraz wypisane zosta- 
nie ostrzeżenie na standardowe wyjście błędu. 

Przeszkody, podane w bloku obstacle. Blok ten może mieć dodatkowe parame- 
try x i y definiujące położenie przeszkody na mapie. Przeszkód może być do- 
wolnie wiele. Blok przeszkody zawiera znaczniki określające wierzchołki prze- 
szkody point, zawierające atrybuty xi y. Jesli przeszkoda składa się z mniej niż 
3 wierzchołków, nie jest dodawana do mapy, a na standardowe wyjście błędu 
zostaje wysłana stosowna informacja. 

Ścieżka, podana w bloku path. Podobnie jak przeszkoda, składa się z elemen- 
tów point. Jeśli w pliku znajduje się więcej niż jeden blok path, pod uwagę 
brany jest tylko pierwszy. Jeśli ścieżka złożona jest z mniej niż 2 punktów, uzna- 
wana jest za niepoprawną i uruchamianie symulacji dla tej mapy jest przery- 
wane. 


Poniżej zamieszczono zawartość przykładowego pliku wejściowego programu. 


<map> 

<level_size width="800" height="600"/> 

<obstacle x="50" y="140"> 
<point x="10" y="10"/> 
<point x="60" y="30"/> 
<point x="30" y="60"/> 
<point x="30" y="60"/> 
<point x="5" y="23"/> 

</obstacle> 

<obstacle x="900" y="905"> 
<point x="10" y="10"/> 
<point x="30" y="10"/> 
<point x="30" y="30"/> 
<point x="10" y="30"/> 
<point x="5" y="23"/> 

</obstacle> 

<path> 
<point x="0" y="500"/> 
<point x="200" y="300"/> 
<point x="400" y="320"/> 
<point x="550" y="90"/> 
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<point x="570" y="100"/> 
<point x="520" y="20"/> 
<point x="300" y="200"/> 
<point x="0" y="0"/> 
</path> 
</map> 


9.3.2. Interfejs 


Graficzny interfejs uzytkownika sktada sie z trzech okien. Okno stuzace do 
wprowadzania parametrów modelu i czujników przedstawione jest na rys. 
Wywoływane jest z menu File Model parameters. Okno nie posiada żadnych 


State equation 


Rys. 9.11: Widok okna do ustawiania parametrów modelu. 


przycisków, dane pobierane są z niego, a ich poprawność jest sprawdzana w mo- 
mencie, gdy użytkownik wyda polecenie uruchomienia nowej symulacji z okna 
konfiguracji symulacji, które przedstawione jest na rys.[9.12] 

W tym oknie (wywolywanym z File— New simulation), uzytkownik musi wy- 
brać plik XML z danymi dotyczącymi mapy i zadanej ścieżki (domyślna nazwa 
map.xml). Istnieje możliwość podania nazwy pliku, do którego zapisywany ma 
być przebieg symulacji (domyślnie logs.log). Używkownik może nie wybrać żad- 
nego pliku (zostawić puste pole z nazwą) — wtedy przebieg symulacji nie będzie 
zapisywany. 

Poniżej przedstawiony został przykładowy fragment pliku z zapisem prze- 
biegu symulacji. 


Starting simulation at Tue Jan 04 00:35:01 2011 


Name of XML file: map.xml 
Name of logs file: logs.log 
Kalman filter enabled: yes 
Steering based on: path 
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A=[ 10; 01 

B=[ 10; 01 

R=[ 10; 01 

c=[ 10; 01 

Q=[ 10; 01 

S=[ 0; O01 

step 1 

Q=[ 12.5382 ; 491.047 ] 
Y=[ 13.1554 ; 490.936 ] 
U=[ 4.94975 ; -4.94975 ] 
M=[ 12.0701 ; 490.658 ] 
S=[ 0.666667 0 ; 0 0.666667 ] 
step 2 


Q=[ 16.9056 ; 486.36 ] 
Y=[ 17.3779 ; 486.902 ] 
U=[ 4.94975 ; -4.94975 ] 
M=[ 17.2437 ; 486.454 | 
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S=[ 0.625 0 ; 0 0.625 ] 


Na samym początku pliku znajduje się informacja, kiedy rozpoczęta została sy- 
mulacja. Następnie podana jest konfiguracja programu, przy czym wartość po- 
czątkowa niepewności położenia pojazdu Ło oznaczona jest jako S. W dalszej czę- 
sci pliku znajdują się informacji z kolejnych kroków symulacji, gdzie Q oznacza 
prawdziwe położenie robota, Y, oznacza położenie robota odczytane z czujni- 
ków, U to wartość sterowania, M położenie obliczone z wykorzystaniem filtru 
Kalmana, a Sto macierz określająca niepewność tego położenia. Macierze i wek- 
tory zapisywane są w nawiasach kwadratowych, spacje odzielają poszczególne 
elementy w wierszu, średniki oddzielają poszczególne kolumny. 

Kolejnym parametrem wprowadzanym z okna ustawień symulacji jest począt- 
kowa niepewność położenia (podobnie jak w pliku logów, oznaczona jest przez 
S). Następnie, użytkownik ma możliwość włączenia/wyłączenia filtru Kalmana. 
Kiedy filtr Kalmana jest wyłączony, nowa wartość położenia i jego niepewność 
przyjmowane są na podstawie predykcji (dwa pierwsze kroki algorytmu przed- 
stawionego na rys.|9.3). 

Przedostatnim ustawieniem jest wybór sposobu generowania sterowan. Ist- 
nieją 4 możliwości: 

* path — sterowanie generowane jest bez sprzężenia zwrotnego, jako różnica 
punktu na ścieżce odpowiadającemu następnemu krokowi i punktu na ścieżce 
odpowiadającemu aktulnemu krokowi, 

previous output — sterowanie generowane jest na podstawie punktu na ścieżce 
odpowiadającemu następnemu krokowi algorytmu i położeniu odczytanym z 
czujników (Y), 

previous position — sterowanie generowane jest na podstawie punktu na ścieżce 
odpowiadającemu następnemu krokowi algorytmu i położeniu rzeczywistym 
robota (Q) -jest to przypadek nierzeczywisty, prawdziwe położenie robota ni- 
gdy nie jest dokładnie znane, 

previous mean — sterowanie generowane jest na podstawie punktu na ścieżce 
odpowiadającemu następnemu krokowi algorytmu i położeniu robota oblicza- 
nym przy wykorzystaniu filtru Kalmana. 


Na samym końcu użytkownik wybiera, czy przed uruchomieniem symulacji 
chce mieć możliwość korekcji parametrów wygładzania ścieżki. Naciśnięcie przy- 
cisku Start! powoduje sprawdzenie wprowadzonych parametrów — czy istnieje 
podany plik xml oraz czy wszystkie wprowadzone macierze (parametry modelu 
z odrębnego okna, opisanego wcześniej, oraz wartość początkowa niepewności 
położenia) mają liczbową zawartość na wszystkich pozycjach. Błędy sygnalizo- 
wane są wyskakującym oknem. Kiedy wszystkie parametry są poprawne i uda się 
sparsować podany plik XML, oba okna edycji parametrów zostają zamrożone, od- 
blokowane natomiast zostają funkcje głównego okna, które przedstawione jest na 
rys.[9.13] Jednocześnie zostają w nim narysowane wczytane przeszkody i wstęp- 
nie wygładzona ścieżka. 

Jeśli użytkownik wybrał opcję dopasowania parametrów wygładzania ścieżki, 
w oknie głównym aktywuje się pole Path smooth, umożliwiające edycje dwóch 
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Rys. 9.13: Widok okna głównego aplikacji. 


parametrów. Algorytm wygładzania ścieżki oparty jest o prostą heurezę: kierunek 
tworzenia ścieżki zmieniany jest w zależności od tego, który fragment odcinka 
między dwoma punktami ścieżki jest wygładzany. Im bliżej któregoś z punktów, 
tym większy wpływ ma on na kierunek tworzenia ścieżki. Algorytm regulowany 
jest dwoma parametrami. Pierwszy z nich, ustawiany za pomocą górnego suwaka 
i którego wartość wyświetla się w lewym polu, odpowiada za rozdzielczość z jaką 
aproksyowana jest ścieżka. Im większa wartość parametru, z tym mniejszej ilości 
punktów będzie składać się wygładzona ścieżka. Drugi parametr jest współczyn- 
nikiem z jakim zmieniają się wagi punktów na podstawie których wybierany jest 
kierunek ścieżki. Im większy parametr, tym bardziej kanciasta ścieżka, im mniej- 
szy, tym bardziej obła, jednocześnie jednak nie trafia ona dokładnie w zadane 
punkty. 

Gdy wygląd ścieżki odpowiada oczekiwaniom użytkownika, powinien on wci- 
snąć przycisk OK. Spowoduje to wejście w tryb symulacji. Program wchodzi w ten 
tryb również po wciśnięciu przycisku Start! w oknie konfiguracji symulacji, jeśli 
nie zostanie zaznaczona opcja korekcji parametrów wygładzania ścieżki. W tym 
trybie aktywują się przycisku w polu Controls głównego okna, w polu wizualiza- 
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cji zostaje dodany robot, oznaczony niebieskim okręgiem, oraz na czerowno na- 
rysowany zostaje rozkład prawdopodobieństwa jego pozycji. Kolor rysowanego 
rozkładu jest normalizowany, tak aby maksymalna wartość obliczonego rozkładu 
odpowiadała maksymalnej jasności koloru. Wraz ze wzrostem pola powierzchni 
rysowanego rozkładu (wzrostem wariancji), spada wartość prawdopodobieństwa 
jaka odpowiada poszczególnym jasnościom koloru. Przycisk Run powoduje uru- 
chomienie płynnej symulacji, która może być zatrzymana przyciskiem Stop. Po- 
jedynczy krok symulacji wykonywany jest po naciśnięciu przycisku Single step. 
Przycisk Cancel powoduje przerwanie symulacji, wyczyszczenie wizualizacji oraz 
odblokowanie okien edycji parametrów modelu i symulacji. 


Uwagi dotyczące działania Filtru Kalmana 


Symulacje przeprowadzone z wykorzystaniem dedykowanej aplikacji pozwo- 
liły zweryfikować działanie algorytmu filtracji Kalmana w praktyce. W przypadku 
wykorzystania jedynie części predykcyjnej algorytmu uzyskane wyniki mają po- 
dobny sens do wyników pochodzących z czujników odometrycznych. 


LH; = AthHt-1 + Brur 


a 3 (9.39) 
È; = AtÈ?t-14; + R; 


Zgodnie z równaniem błąd estymacji położenia rośnie z każdym kro- 
kiem, gdyż kolejna estymacja wymusza dodanie niepewności pochodzącej z mo- 
delu (R;). 

Filtracja Kalmana pozwala na ustawienie wartości granicznej dla wariancji 
położenia. Podczas wykonywania fuzji wyniku pomiaru z wynikiem predykcji 
wartość pomiaru zawsze zostaje poprawiona (w najgorszym przypadku pozostaje 
bez zmian). Ponieważ w rozpatrywanym przypadku czujniki posiadały stałą do- 
kładność pomiar zawsze cechował się stałą wariancją. Uzyskanie dodatkowej in- 
formacji pochodzącej z modelu pozwala nanieść poprawkę. Kolejne kroki pro- 
cesu lokalizacji wykonywane są na podstawie poprzednich rozkładów wierzeń, 
tak więc błąd nie może wzrosnąć. 

Wykorzystanie tylko jednego rodzaju czujników nawet o dużej dokładności 
może okazać się mniej opłacalne niż wykorzystanie filtru Kalmana dla dwóch 
czujników o dużej wariancji. 


9.4. Podsumowanie 


W rozdziale przedstawiono najważniejsze metody lokalizacji robota, uwzględ- 
niające występowanie niepewności w procesie pomiarowym. Przedstawione zo- 
stały algorytmy lokalizacji Markowa, filtracji Kalmana oraz filtracji Bayesa. Pod- 
stawy działania algortymów zostały omówione na przykładach. 

W rozdziale omówione zostały aspekty implementacyjne filtru Kalmana w sy- 
mulatorze prostego robota mobilnego wyposażonego w różne rodzaje czujników. 

Więcej informacji na temat metod reprezentacji danych niepełnych i niepew- 
neych można znaleźć w [4] oraz [1]. Metody i algorytmy lokalizacji robota zostały 
szczegółowo omówione w [3]. 
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ROZDZIAL 


WYKORZYSTANIE LANCUCHOW MARKOVA 
DO GENEROWANIA TEKSTOW 
B. Foryś, J. Łubiński 


Niniejszy rozdział poświęcono przybliżeniu pojęć związanych z pojęciem 
„łańcuchów Markova”. W kolejnych podrozdziałach opisano przykładowe prak- 
tyczne zastosowanie takich łańcuchów do generacji krótkich tekstów na wybrany 
temat. 


10.1. Wstęp teoretyczny 


Aby ułatwić zapoznanie się z koncepcją łańcuchów Markova w niniejszym 
podrozdziale pokazano przykład praktycznego ich wykorzystania. Łańcuchy 
Markova zaprezentowane zostały w dwóch ujęciach - probabilistycznym oraz 
przy użyciu teorii automatów. 


10.1.1. Przykład - losowanie kul 


Na rys. pokazano przykład problemu, który zamodelować można za po- 
mocą łańcuchów Markova. Problem ten można opisać następująco: 


e Niech w trzech urnach o numerach 0, 1, 2 będą umieszczone piłeczki o dwóch 
kolorach. Wiadomo, że: w urnie 0 znajduje się tyle samo czarnych i białych 
piłeczek, w urnie 1 jest dwa razy więcej czarnych piłeczek niż białych piłeczek, 
a wurnie 2 jest dwa razy więcej białych piłeczek niż piłeczek czarnych. 

Z urn mają być losowane piłeczki. Algorytm losowania rozpoczyna się od wylo- 
sowania piłeczki z urny 0. Wyciągnięcie czarnej piłeczki oznacza, że następne 
losowanie odbędzie się z urny 2, a białej piłeczki, że następne losowanie od- 
będzie się z urny 1. Po dokonaniu losowania, piłeczka wraca do urny, z której 
została wylosowana. Losowanie z urny 0 inicjalizuje algorytm, po czym urna 0 
jest chowana. 


Przykładowy przebieg losowania może być następujący. Z urny 0 wylosowano pi- 
łeczkę czarną, po czy schowano tę urnę. Ponieważ wylosowano czarną piłeczkę, 
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Rys. 10.1: Trzy urny użyte do losowaniami. 


zatem następne losowanie odbywało się z urny 2. Wynikiem tego losowania oka- 
zała się biała piłeczka, a więc następne losowanie miało odbyć się z urny 1. Ponie- 
waż z urny tej wylosowano białą piłeczkę, kolejne losowanie ponownie musiało 
odbyć się z urny 1. Wynikiem tego losowania okazała się czarna piłeczka. Wy- 


nik ten oznacza, że następne losowanie musiało odbyć się z urny 2, ale na tym 
zakończono eksperyment. 


Rys. 10.2: Graf stochastyczny eksperymentu z urnami 


Jak widać, prawdopodobieństwo wyboru piłeczki określonego koloru zależy 
wyłącznie od tego, z której urny odbywa się losowanie. Z uwagi na równoliczność 
białych i czarnych piłeczek w urnie 0 prawdopodobieństwo przejścia do urny 1 
lub 2 w kolejnym losowaniu wynosi 1/2 dla obu przypadków. Prawdopodobień- 
stwa przejścia pomiędzy urnami 1 i 2 jest równe 2/3, a pozostania w urnach jest 
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równe 1/3. Przejścia te wraz prawdopodobienstwami można przedstawić za po- 
mocą grafu jak na rys.[10.2] Taki graf nazywany jest grafem stochastycznym, po- 
nieważ suma wag łuków wychodzących z danego węzła jest równa 1. Graf ten 
można również przedstawić w postaci macierzy przejścia. 


0 1/2 1/2 
P=| 0 1/3 2/3 
0 2/3 1/3 


Jesli ponumerowaé wiersze i kolumny od zera, to dla danego elementu macie- 
rzy numer wiersza oznacza obecną urnę, a numer kolumny zaś oznacza urnę, do 
której ma nastąpić przejście. Wartość elementu w macierzy równa jest prawdo- 
podobieństwu zajścia danego zdarzenia. Jak widać, z żadnego pudełka nie można 
przejść do urny 0. Prawdopodobieństwo takiej sytuacji dla każdego z przypadków 
jest równe 0. Macierz ta jest stochastyczna, ponieważ suma elementów w wier- 
szach jest równa 1. 


10.1.2. Łańcuch Markova w ujęciu probabilistycznym 


Korzystając z przykładu losowania czarno-białych piłeczek podstawowe defi- 
nicje można przedstawić w następujący sposób. 


Proces stochastyczny - rodzina zmiennych losowych określonych na pewnej 
przestrzeni probabilistycznej (w przykładzie są to kolejne losowania), o war- 
tościach w pewnej przestrzeni mierzalnej (kolory piłeczek). 


Łańcuch - proces stochastyczny określony na dyskretnej przestrzeni (dyskretną 
przestrzeń stanowią kolejne losowania piłeczek z urn). 


Proces Markova (posiadający własność Markova) - to taki proces stochastyczny, 
w którym warunkowe rozkłady prawdopodobieństwa przyszłych stanów pro- 
cesu są zdeterminowane wyłącznie przez jego bieżący stan, bez względu na 
przeszłość. (prawdopodobieństwo wylosowania danego koloru piłeczki zależy 
bezpośrednio od tego z jakiej urny odbywa się losowanie). 


Łańcuch Markova - to proces Markova, który zdefiniowany jest na dyskretnej 
przestrzeni stanów. 


10.1.3. Łańcuch Markova w ujęciu teorii automatów 


Łańcuch Markova, zwany także obserwowalnym modelem Markova, jest roz- 
winięciem automatu skończonego. Automat skończony jest zdefiniowany przez 
możliwe stany oraz przejścia między nimi. W przypadku obciążonego (ang. we- 
ighted) automatu dodatkowo każde przejście ma wyznaczone prawdopodobień- 
stwo tego, że zostanie wybrane. Suma prawdopodobieństw wszystkich przejść 
z jednego stanu musi wynosić 1. Łańcuch Markova jest takim obciążonym skoń- 
czonym automatem, gdzie sekwencja wejść wyznacza przez jakie stany przejdzie 
automat. Formalnie można to zapisać w następujący sposób. 
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e Q=qdi1d>...qn - N stanów, 

* A= a01002003...dn1...dnn - Macierz prawdopodobieństwa przejść między sta- 
nami (od i do j), 

* qo, qr - specjalne stany: początkowy i końcowy. 


Łańcuchy Markova wykorzystają własność Markova, która mówi, że warun- 
kowe rozkłady prawdopodobieństwa przyszłych stanów procesu są zdetermino- 
wane wyłącznie przez jego bieżący stan, bez względu na przeszłość. Inaczej rzecz 
ujmując - przyszłe stany procesu są warunkowo niezależne od stanów przeszłych. 


P(qilqi.--gi-1) = P(qilqi-1) 


Należy zauważyć, że zgodnie z prawami prawdopodobieństwa, suma prawdo- 
podobieństwa wyjść z danego stanu musi wynosić 1: 


10.2. Przykładowe zastosowanie 


Łańcuchy Markova można wykorzystać do automatycznego generowania tek- 
stów. Na rys.[10.3]pokazano graf przejść obrazujący prawdobodobieństwo wystą- 
pienia czterech wybranych słów (to, be, or, not) w sekwencjach reprezentujących 
zdania. Na bazie tego grafu można generować proste zdania. W dalszej części 
tego podrozdziału przedstawiono założenia oraz wynik implementacji przykła- 
dowej aplikacji do generowania tekstów w języku angielskim. 


a 
15 


Rys. 10.3: Łańcuch Markova dla sekwencji słów (to, be, or, not). 
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10.2.1. Zalozenia 


Tworzone narzędzie powinno umożliwiać generowanie krótkich utworów li- 
terackich na wybrany przez użytkownika temat. Idea działania tego narzędzia 
powinna polegać na wykorzystaniu modeli Markova stworzonych na podstawie 
analizy istniejących utworów literackich. Analiza tekstów powinna pozwolić na 
wyznaczeniem prawdopodobieństwo z jakim jedno słowo pada po drugim, a więc 
wyznaczeniem modelu Markova. Model ten wykorzystany powinien zostać wy- 
korzystany w procesie generowania tekstu. Generowanie tekstu zaczynać się ma 
od wyboru węzła startowego odpowiedniego grafu. Następnie, w wyniku losowa- 
nia zgodnie z założonym modelem, wybrane powinno być kolejne słowo oraz po- 
winno dokonać się przejście do kolejnego węzła grafu. Proces ten ma trwać aż do 
momentu, gdy generator trafi na kropkę lub przekroczy limit słów w zdaniu wy- 
brany wcześniej przez użytkownika. Po wygenerowaniu określonej parametrem 
ilości zdań program prezentuje uzyskany wynik użytkownikowi. 

Istotnym warunkiem mającym wpływ na prawidłowe nauczania programu 
jest dostęp do różnorodnych, objętościowo dużych tekstów. Spełnienie tego wa- 
runku powinno zabezpieczyć program przed generowaniem trywialnych tekstów 
lub też powtarzaniem tekstów, na podstawie których odbywało się uczenie. 

Zakładając, że program został już nauczony przy użyciu odpowiedniej ilości 
materiału źródłowego, można przystąpić do kolejnego kroku - generacji zdań. 
Nim jednak to tego dojdzie, należy określić temat generowanego utworu. Aby 
było to możliwe, dane uczące podzielono wcześniej na pięć kategorii i zbudo- 
wano dla każdej z nich osobny model. Wybór tematu uaktywnia odpowiadający 
mu model. Możliwe tematy utworów to: komedia, dramat, powieść historyczna 
(jej bohaterowie są prawdziwymi postaciami historycznymi), powieść obycza- 
jowa (jej bohaterowie to zwykli ludzie z problemami rodzinnymi), powieść fan- 
tastyczna (w powieści występują elementy magiczne). 

Przyjęto, że bazę do stworzenia modeli Markova będą dzieła autorstwa Wil- 
liama Sheakespeara. Stworzony narzędzie powinnno więc generować utwory li- 
terackie w stylu podobnym do stylu tego autora. 


10.2.2. Implementacja 


Stworzony program do generowania tekstu nazwano Bill 2.0. Został on za- 
implementowany w język programowania C++. Na wejście programu podawany 
jest plikuczący (plik .txt zawierający tekst literacki), wyjściem z programu jest plik 
wynikowy (plik .txt zwygenerowanym tekstem), o nazwie zadanej przez użytkow- 
nika programu. 

W kodzie programu wyróżnić można następujące klasy: 


* Bill - klasa odpowiedzialna głównie za interakcje z użytkownikiem, pobiera 
nazwy plików. Obsługuje tryb nauki lub generowanie tekstu poprzez wywoły- 
wanie metod odpowiednich podklas. 

* Baza - klasa pełniąca rolę magazynu tematów. Zajmuje się wczytywaniem pli- 
ków w trakcie nauki do odpowiednich podklas - typu Temat, obsługuje również 
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odczytywanie tych podklas podczas generacji tekstów oraz zapisywaniu wyge- 
nerowanych zdań do plików wskazanych przez klasę Bill. 

e Klasa Temat - klasa pełniąca rolę magazynu wyrazów. Znajdują się w niej je- 
dynie te wyrazy, które zostały znalezione w danym temacie, np. komedii. Gene- 
ruje teksty zgodne z wybranym tematem. Wyrazy zawarte w danym temacie są 
uporządkowne alfabetycznie, oprócz wyrazów, które rozpoczynały zdania. One 
mają uprzywilejowane miejsce w wektorze przechowującym wyrazy, a miano- 
wicie mają one indeks 0. 

* Wyraz - klasa pełniąca rolę magazynu następników danego wyrazu. Odpowiada 
za dodawanie i losowanie następników wybranego wyrazu. Następniki są upo- 
rządkowane alfabetycznie. 

e Nastepnik - klasa będąca podstawową cegiełką w programie. Przechowuje ta- 
kie informacje, jak: nazwa, ilość wystąpień, prawdopodobieństwo danego na- 
stępnika. 


10.2.3. Działanie programu 


W przypadku, gdy program podczas uczenia miałby do dyspozycji tylko jedno 
zdanie: To be or not to be, prawdopodobienstwa występowania po sobie kolejnych 
słów wynosiłyby: P(to|START) = 1, P(be|to) = 1, P(or|be) = 0.5, P(not|or) = 1, 
P(to|not) = 1, P(KONIEC|be) = 0.5 

W przypadku obszerniejszego materiału uczącego wartości prawdopodo- 
bieństw przy poszczególnych słowach miałyby dużo mniejsze wartości. 

Podczas implementacji przyjęto, że losowanie kolejnych wyrazów dokonuje 
się w zbiorach odpowiednich następników. Szansa na wylosowanie danego na- 
stępnika jest równa jego prawdopodobieństwu występowania w tekstach użytych 
do budowy bazy. Wyjątkiem od tej reguły jest Pierwszy wyraz w zdaniu, który 
jest losowany zarówno z pierwszych wyrazów zdań tekstów użytych do nauki, jak 
i z pozostałych wyrazów. Prawdopodobieństwo wylosowania dowolnego wyrazu 
jako początku zdania jest równe 0.5. Wyraz ten nie może być kropką, ani przecin- 
kiem. 

Poniżej zaprezentowany został zapis przykładowej sesji działania programu. 


Wybierz: 

1 Nauka 

2 Generacja tekstow 

3 Zakoncz program 

2 

Czy chcesz uzyc bazy innej niz domyslna (BazaBilla.txt): [T/N] 
N 

Bedzie wczytany domyslny plik bazy 

Podaj nazwe pliku wyjsciowego, do prezentacji wynikow: 
wyniki.txt 

Tematy: 

1 komedia 
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2 dramat 

3 historyczny 

4 obyczajowy 

5 fantastyka 

Podaj nr tematu: 

2 

Podaj ilosc zdan: 

15 

Podaj maksymalna dlugosc zdania: 
8 


Wynik działania programu, choć niepoprawny gramatycznie, zawierał cie- 
kawe sentencje. Wyprodukowany przez program tekst zamieszczono poniżej. 


So please. 

What replication should with me with him. 
Why thy brain. 

Thou character. 

How his army over your hands apt. 
Entertainment to use. 

And a sleep, which are oft breaking. 

The king and by our age for i. 
A whole kingdom give me my heart of. 

Will watch over the main motive, sirrah?. 
Do not, thrift, as my true. 
The duke’s name; his ass- pol. 
Of words! heaven’s face too much prov’d most. 


Enter king your own honour. 
'I know you. 


10.2.4. Wnioski 


Program działał zgodnie z oczekiwaniami. Z oczywistych względów zaimle- 
mentowane rozwiązanie nie dostarcza gramatycznie i stylistycznie poprawnych 
tekstów. Niemniej już nawet w tak prostym przypadki widać, ile ukrytego poten- 
cjału mają w sobie łańcuchy Markova. Pomijając jednak krytyczną ocenę samej 
implementacji w ostateczności można uznać, że wygenerowane zdania posiadają 
ukrytą głębię i znacznie (zwłaszcza ostatnie zdanie). 
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ROZDZIAŁ 


ODKRYWANIE REGUŁ ASOCJACYJNYCH 
M. Homa, M. Strycharski 


Wraz ze wzrostem wykorzystania komputerowych baz danych można zaob- 
serwować wzrost zainteresowania analizą i znajdowaniem wiedzy nie wynika- 
jącej bezpośrednio ze struktury lub zawartości tych baz. Analiza zawartości 
baz danych pod tym kątem nazywana jest eksploracją bądź drążeniem danych 
(ang. Data Mining). Jednym z obszarów takiej analizy jest poszukiwanie reguł 
asocjacyjnych. Niniejszy rozdział poświęcony jest właśnie takim zagadnieniom. 

Mówiąc o regułach asocjacyjnych nie sposób nie przytoczyć przykładu „pielu- 
szek i piwa” (ang. diaper and beer), szeroko cytowanego w literaturze przy okazji 
opisu tego zagadnienia. Wziął się on z analizy sprzedaży sklepów Osco Drug Sto- 
resw 1992 roku. W jej wyniku stwierdzono, że w godzinach między 17 a 19 jeżeli w 
koszyku pojawiły się pieluszki, to było w nim też piwo. Wytłumaczeniem miał być 
fakt, że młodzi ojcowie w tym czasie robią zakupy, więc poza zakupem pieluszek, 
prawdopodobnie kupią piwo. 

Podobnych spostrzeżeń, nie wynikających bezpośrednio ze struktury bazy da- 
nych, można dokonywać więcej. Pozyskiwana wiedza może znaleźć zastosowa- 
nie w wielu dziedzinach: począwszy od marketingu i sprzedaży (ułożenie to- 
warów na półkach, akcje promocyjne), przez personalizację usług (sugerowanie 
podobnych utworów/ zdjęć w serwisach internetowych), diagnostykę medyczną, 
prognozowanie pogody, kończąc na wielu innych. 


11.1. Hurtownie danych 


Zagadnienie odkrywania reguł asocjacyjnych jest jednym z obszarów drąże- 
nia danych (ang. Data Mining). Bez względu na stosowaną metodę drążenia da- 
nych dużo problemów sprawiają same dane, które zazwyczaj są przechowywane 
w heterogenicznych i rozproszonych systemach. Dostęp do danych pochodzą- 
cych z wielu rozproszonych źródeł i mających różne modele jest zazwyczaj bar- 
dzo nieefektywny. Rozwiązaniem tego problemu są hurtownie danych. 

Czym są hurtownie danych? Ogólnie można powiedzieć, że to bardzo duże 
bazy danych, z których dane są tylko odczytywane. Hurtownia danych jest zawsze 
zorientowana tematycznie (np. hurtownia danych na temat sprzedaży pojazdów) 


11.1. Hurtownie danych 


i zawiera dane historyczne i biezace. Dane w hurtowni sa zagregowane na wielu 
poziomach szczegółowości. Na rys.[11.1]pokazano pogladowa architektura typo- 
wej hurtowni danych. Dane z wielu heterogenicznych i rozproszonych źródeł tra- 
fiają do oprogramowania ETL (ang. extraction-translation-loading), które jest od- 
powiedzialne za odczyt danych, oraz wczytanie do hurtowni wszystkich danych, 
które zostały wcześniej przetransformowane do wspólnego modelu. Dane z hur- 
towni mogą być następnie poddawane analizie za pomocą specjalnego oprogra- 
mowania. 


Pre-Data Data Data Front-End 
Warehouse : Cleansing Repositories Analytics 


| ES = 
Data r” 
larehouse = Data Mining 


ak Data 
[505] Visualization 
ES 

EA 


Meta-Data Repository wr P AOL 


Rys. 11.1: Poglądowa architektura typowej hurtowni danych 
isgdatabasedevelopment . com/images/data-warehouse-o 


OLTP Server 


Reporting 


http://www. 


verview.gif). 


Wszystkie dane w hurtowniach są zorganizowane w postaci wielowymiaro- 
wego modelu danych (ang. Multidimensional Data Model), który jest też okre- 
ślany jako kostka danych. Model ten bazuje na odpowiednich relacjach między 
danymi na podstawie których są one w ułożone w wielowymiarowe macierze. 
W modelu tym istnieje zbiór miar numerycznych, które są przedmiotem analizy. 
Przykładami takich miar są sprzedaż, budżet, przychody, itp. Każda z miar jest 
uzależniona od zbioru wymiarów, które tworzą kontekst miary lub, mówiąc ina- 
czej, nadaje znaczenie miarom. Na rys. pokazano kostkę danych, która or- 
ganizuje dane ze sprzedaży produktu według lat i miast, w których miała miejsce 
sprzedaż. Każda komórka może zawierać dane dla określonego produktu, okre- 
ślonego roku i określonego miasta. 

Dane, które znajdują się w hurtowniach, podlegają eksploracji. Eksploracja to 
proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, po- 
tencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub 
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Opole Łódź Kraków 
Miasto 


Rys. 11.2: Przykład wielowymiarowego modelu danych (kostka). 


trendów w dużych repozytoriach danych. Metody eksploracji danych, ze względu 
na cel eksploracji i typy wzorców odkrywanych w procesie eksploracji danych, 
można podzielić, bardzo ogólnie, na kilka zasadniczych klas: 


e klasyfikacja/regresja, 

e grupowanie, 

e odkrywanie sekwencji, 

+ odkrywanie charakterystyk, 

e analiza przebiegów czasowych, 
e odkrywanie asocjacji, 

e wykrywanie zmian i odchyleń, 
e eksploracja WWW, 

e eksploracja tekstów. 


Odkrywanie reguł asocjacyjnych jest jedną z wielu metod eksploracji danych. 
Zatem można stwierdzić, że niniejszy rozdział dotyczy ogólniejszej dziedziny jaką 
jest eksploracji danych. 


11.2. Opis problemu 


W poniższych podrozdziałach zostaną opisane podstawowe pojęcia oraz de- 
finicje wykorzystywane w algorytmach odkrywania reguł asocjacyjnych oraz 
ogólny algorytm ich poszukiwania. 


11.2.1. Podstawowe pojęcia 


Należy zacząć od zdefiniowania przestrzeni i organizacji danych, które będą 
dostępne w trakcie odkrywania reguł asocjacyjnych. Zakładamy, że istnieje pe- 
wien zbiór atrybutów 

T= {iy, I2,...,im}, (11.1) 


opisujacy dostepne towary w koszyku. Ponadto, niech 
T = {h, ta,..., th}, (11.2) 
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będzie zbiorem transakcji (obserwacji). Pojedyncza transakcja zawiera informa- 
cje o wystąpieniu danego atrybutu w koszyku (nie musi natomiast określać ilości 
jego wystąpień). Przykład zbioru danych przedstawiono w tab. 


Tab. 11.1: Przykładowy zbiór danych 


Transakcja || i; (pieluszki) | iz (piwo) | is (czipsy) | i, (chleb) 
t 1 1 1 0 
to 0 0 
is 1 1 0 1 
tą 1 1 0 0 
ts 1 0 0 1 
Reguty beda zapisywane w postaci 
X > Y, (11.3) 


gdzie X będzie nazywane przesłanką, natomiast Y wnioskiem. Przyjmują one 
wartości ze zbioru I 
Xx Yel, (11.4) 


Ważną własnością przesłanek i wniosków jest to, ze są one rozłączne (w ramach 
jednej reguły) 
XNY=G. (11.5) 

Dla przykładu, wykorzystując dane z tab[11.1}mozna zdefiniować następujące 
reguły asocjacyjne: 
e {pieluszki} > {piwo} 
* {piwo} > {czipsy} 
e {pieluszki, czipsy} > {chleb} 

Określając reguły asocjacyjne mówi się o zdarzeniach, które występują z pew- 
nym prawdopodobieństwem określonym przez analizę zbioru danych. Miarą 
prawdopodobieństwa wystąpienia X i Y w zbiorze transakcji T jest wsparcie 


IXnY| 
ITI 
Należy jeszcze zdefiniować prawdopodobieństwo wystąpienia zbioru Y pod wa- 


runkiem wystąpienia X. Na potrzeby problemu odkrywania reguł asocjacyjnych 
nazywa się je zaufaniem 


sup(Xu Y) = (11.6) 


IXnY| 
|X| 


Opisowo, wsparcie określa ilość wystąpień zbiorów zawierających X i Y w sto- 
sunku do liczności zbioru transakcji T, natomiast zaufanie opisuje ilość wystą- 
pień zbiorów zawierających X i Y w stosunku do ilości wystąpień zbiorów zawie- 
rających X. 


conf(XUY)= 


(11.7) 
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Dla przyktadu, bazujac na danych z tab. parametry wsparcia i zaufania 
dla reguły {pieluszki} > {piwo} mają następujące wartości: 


: ; : 3 
sup({pieluszki} > {piwo}) = = 0.6 


3 
conf ({pieluszki} > {piwo}) = „sg 0.75 


11.2.2. Zbiory częste 


Ważnym pojęciem z punktu widzenia algorytmów odkrywania reguł asocja- 
cyjnych są zbiory częste. Ponieważ szukając reguł podaje się minimalne wsparcie, 
jakie mają one spełniać (jest to jeden z parametrów poszukiwania reguł), można 
powiedzieć, że zbiór częsty jest to taki zbiór X, dla którego zachodzi 


sup(X) = minsup. (11.8) 


W szczególności, zbiorem częstym moze być zbiór Xu Y spełniający nierówność 
(11.8). Zbiory częste wykazują własność monotoniczności. Oznacza to, że wszyst- 
kie podzbiory zbioru częstego są również zbiorami częstymi. Nietrudno stwier- 
dzić również, że jeżeli zbiór B nie jest częsty, to żaden nadzbiór A zbioru B nie 
jest częsty. Własność ta wykorzystywana jest w niektórych algorytmach (np. algo- 
rytmie Apriori). 


11.2.3. Ogólny algorytm 


W celu odkrycia reguł asocjacyjnych należy zdefiniować dwa parametry, które 
będą musiały spełniać wygenerowane reguły X > Y. Są to minimalne wspar- 
cie minsup oraz minimalne zaufanie minconf. Znalezione reguły spełniają zatem 
nierówności 

sup(X > Y) > minsup, 


: (11.9) 
conf(X > Y)=minconf. 


Łatwo zauważyć, ze otrzymane reguły zależą od bazy danych, a nie od uzy- 
tego algorytmu. Swego rodzaju wyjątkiem może być algorytm MSApriori, w któ- 
rym minimalne wsparcie minsup może być definiowane dla różnych atrybutów 
niezależnie (pozwala to na odkrycie reguł dla atrybutów pojawiających się rzadko 
w koszyku). 

Ogólny algorytm odkrywania reguł asocjacyjnych zawiera następujące opera- 
cje: 


e Określenie danych - zbioru atrybutów i transakcji, minimalnego wsparcia min- 
sup oraz minimalnego zaufania minconf. 

e Znalezienie zbiorów częstych dla określonego minsup. 

e Znalezienie reguł asocjacyjnych o zaufaniu nie mniejszym niż minconf dla każ- 
dego zbioru częstego. 
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11.3. Algorytm Apriori-T 
11.3. Algorytm Apriori-T 


W niniejszym podrozdziale zostanie przestawiona idea algorytmu Apriori [1], 
a następnie jego niewielka modyfikacja, polegająca na przechowywaniu zbiorów 
częstych w strukturze T-drzewa. 

Algorytm Apriori został po raz pierwszy zaproponowany w [1]. Jego niewątpli- 
wymi zaletami są prostota oraz stosunkowa łatwa implementacja. Niestety, ma 
on znaczną złożoność obliczeniową oraz wymagania względem pamięci. Warto 
również podkreślić, że algorytm ten wymaga wielokrotnego skanowania bazy da- 
nych, co znacznie wydłuża jego działanie w praktycznych zastosowaniach (ope- 
racja wykonywane na dysku są znacznie dłuższe niż te wykonywane w pamięci). 

Podstawe pojęcie w algorytmie Apriori wiąże się z pojęciem zbiorów częstych. 


Definicja 11.1 (Monotoniczność zbiorów częstych - własność Apriori ) 
Monotoniczność zbiorów częstych oznacza, że dowolny podzbiór zbioru czę- 
stego jest również zbiorem częstym. 


Na podstawie definicji można pokazać, że jeżeli zbiór B nie jest częsty, to ża- 
den nadzbiór A zbioru B nie jest częsty. Powyższe spostrzeżenia leżą u podstaw 
omawianego algorytmu. Ogólny jego przebieg jest zgodny z opisem przedstawio- 


nym w podrozdziale 
11.3.1. Algorytm Apriori 
W opisie algorytmu będą używane następujące oznaczenia: 


* Z, - kolekcja k-elementowych zbiorów częstych, 

* Fi - k-elementowy zbiór częsty, 

e Cy - kolekcja k-elementowych zbiorów kandydujących (utworzony na podsta- 
wie Fr-1). 


Ważnym założeniem algorytmu jest posortowanie elementów w ustalonym, nie- 
zmiennym porządku leksykalnym. Algorytm, w ogólnym zarysie, przedstawia się 
następująco: 


1. Utworzenie kolekcji jednoelementowych zbiorów częstych 27. 

2. Przypisanie k=2. 

3. Utworzenie C% - kolekcji k-elementowych zbiorów kandydujących zbudowa- 
nych przy wykorzystaniu Fķ-1. 

4. Utworzenie 24 poprzez odrzucenie z C% tych zbiorów, które nie są częste. 

5. Jeżeli k jest mniejsze od maksymalnej liczności zbioru: zwiększenie ko 1 i po- 
wrót do kroku 3; w przeciwnym przypadku koniec algorytmu. 


Bazując na kolekcji zbiorów częstych o rosnących licznościach można wyge- 
nerować reguły asocjacyjne. Szczegółowy opis algorytmu w postaci pseudokodu 
przedstawiono na listingach{11.1]oraz{11.2] W celu ilustracji procesu generowania 
zbiorów częstych załóżmy, że dane są zbiory częste o liczności 3: 


F; = {{1,2,3}, {1,2,4}, {1,3, 4}, (1,3, 5}, (2,3, 4) 
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W wyniku taczenia otrzymuje sie: 
Ca = tl, 2, 3, 4, tl, 3, 4, 5} 


Natomiast po eliminacji: 
Ca = {{1,2,3, 4}} 


Listing 11.1: Algorytm Apriori(T). 


Apriori(T) 
Cı <— zainicjuj(T); 
Fi — {f| feC,f.count/n = minsup }; //n — liczba transakcji w T 
for (k=2;F,-1 £ Ø;k + + ) do 
Cy — generuj_kandydatów(F;_1); 
for each te T do 
for each c e C do 
if c zawiera się w t then 
c.count++; 
end 
end 
Fi — {c € Cgl c.count/n > minsup | 
end 
return F — Ug Fy; 


Listing 11.2: Generowanie zbiorów kandydujących. 


Function generacja_kandydatów(F;-1) 
Ck — Ø; 
forall fi, fo € Fx-1 
with fi = {i1,..., İk-2, İk-1} 
and fi = {ij,..., ik2, ię! 
and ię_, <i;_, do 
c fi,...,ik-1, ii ie ll taczenie fi i fo 
Ck — UCg ich; 
for each (k—1)—subset s of c do 
if (sę Fy_ 1) then 
delete c from Cx // usuwanie zbiorów nieczestych 
end 
end 
return C; 
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11.3. Algorytm Apriori-T 
11.3.2. Struktura T-drzewa 


Przy próbie praktycznej implementacji algorytmu Apriori szybko okazuje się, 
że dużym problemem jest przechowywanie wygenerowanych zbiorów częstych. 
W najprostszym podejściu można je przechowywać w postaci tablicy z elemen- 
tami zawierającym kolejne zbiory częste. Należy przy tym pamiętać, że rzeczywi- 
ste problemy potrafią generować ogromne ilości danych (bazy danych wykorzy- 
stywane w analizie koszykowej mogą mieć tysiące atrybutów i setki tysięcy rekor- 
dów). Alternatywnym podejściem jest przechowywanie zbiorów kandydujących 
w efektywniejszej strukturze, np. w T-drzewie. W niniejszym podrozdziale zosta- 
nie przedstawiona struktura T-drzewa wraz z przykładem jego generacji. 

Przed przystąpieniem do omawiania przykładu należy podkreślić własności 
T-drzewa: 


Kolejne poziomy budowane są w oparciu o tablice. 

Drzewo budowane jest niejako „od tyłu”, tzn. dodając element {1,3} rozwijany 

jest zbiór {3} o zbiór {1} 

* W celu zapamiętania zbioru o pewniej liczności dodaje się 2-składnikową 
strukturę, posiadającą ilość wystąpień oraz wskaźnik na potomka. Wskazuje 
na nią element o indeksie równym jego numerowi. 

e Dodanie nowego poziomu drzewa wymaga dodanie tablicy o wielkości o 1 

mniejszej niż rodzic. 


Niech dane zamieszczane w strukturze drzewa będą jak w tab. 


zbiór częsty (liczność) || zbiór częsty (liczność) || zbiór częsty (liczność) 
10 13 (1) 45 (1) 
2 (2) 14 (1) 46 (1) 
3 (1) 24 (2) 134 (1) 
4 (3) 25 (1) 245 (1) 
5 (1) 26 (1) 246 (1) 
6 (1) 34 (1) 


Tab. 11.2: Przyktadowe zbiory czeste do umieszczenie na T-drzewie. 


Zbiory te będą dodawane do drzewa według rosnącej liczności, zaczynając 
od zbiorów 1-elementowych. T-drzewo po dodaniu tych zbiorów przedstawiono 
na rys.[11.3] Następnie powinny być dodane zbiory o liczności równej 2. Należy 
pamiętać, że dodawane są one w odwrotnej kolejności. Nowo powstałe gałęzie 
posiadają k — 1 elementów (poza elementem NULL), gdzie k to wielkość rodzica. 
Na rys.[11.4]przedstawiono T-drzewo po dodaniu zbiorów 2-elementowych. 

Podobnie postępuje się dla kolejnych zbiorów, wraz z ich rosnącą liczno- 
ścią. Na rys.[11.5|przedstawiono pełne T-drzewo po dodaniu wszystkich zbiorów 
z przykładu. 

Podsumowując, zasada działania algorytmu Apriori-T jest identyczna jak al- 
gorytmu Apriori. Jedyną różnicą jest sposób przechowywania wygenerowanych 
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NULL 1 2 3 4 5 6 
8 — —— — — 
A GE = ORG GE OS A e 
AG Z A at = M 
1 2 1 3 1 1 
NULL NULL NULL NULL NULL NULL 


za we [| nuu NULL | e NULL | © NULL 


Rys. 11.4: T-drzewo po umieszczeniu w nim zbiorów 2-elementowych. 


zbiorów częstych. Dodanie nowego zbioru częstego wymaga zajęcia przynaj- 
mniej 12B pamięci, a dokładniej: 4B - na wskaźnik od rodzica, 4B - na wskaźnik 
do potomka, 4B - na ilość wystąpień. Niestety, należy doliczyć też zmienną wiel- 
kość drzewa i puste pola (dla przypomnienia - pól w potomku jest o 1 mniej niż 
w rodzicu). Trudno jednak oszacować te wartości, gdyż zależą one od samych da- 
nych. Na rys.[11.6]przedstawiono pogladowo przebieg algorytmu Apriori-T (nie 
zawarto na nim m.in. warunku stopu) . 


11.4. Algorytm FP-Growth 


Najbardziej znanym algorytmem generowania reguł asocjacyjnych jest algo- 
rytm Apriori. Skoro istnieje już pewien algorytm, który pozwala rozwiązać sta- 
wiany problem, po co szukać innych algorytmów? Odpowiedź na to zasadne py- 
tanie jest stosunkowo prosta. Algorytm Apriori ma kilka niewątpliwych i nieza- 
przeczalnych zalet: jego idea jest prosta do zrozumienia oraz doskonale spraw- 
dza się w przypadku stosunkowo małych zbiorów danych. Nad tymi zaletami gó- 
rują jednak znacznie poważniejsze wady. Algorytm ten nie pozwala uniknąć dość 
kosztownego generowania tzw. zbiorów kandydujących oraz, co jest szczególnie 
istotne, wymaga wielokrotnego skanowania bazy danych. Wady te spowodowały, 
że szukano nowego algorytmu rozwiązującego problem odkrywania reguł asocja- 
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1 


> 
= = — 
w NULL NULL 
1 + 


1 


NULL 


Rys. 11.5: T-drzewo po umieszczeniu w nim zbiorów 3-elementowych. 


zeń Generuj 
Apriori-T 1-elementowe 
zbiory częste 
k=2 


Generuj 
Dodaj zbiory k-elementowe 


na T-drzewo zbiory 
kandydujące 


Rys. 11.6: Idea działania algorytmu Apriori-T. 


cyjnych, który byłby wolny od tych wad. Jednym z takich algorytmów jest algo- 
rytm FP-Growth (Frequent-Pattern Growth). 


11.4.1. Idea algorytmu 


W algorytmie FP-Growth proces odkrywania zbiorów czestych jest realizo- 


wany w dwóch krokach: 
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e Pierwszy krok polega na kompresji bazy danych transakcji. Tak skompreso- 
wana baza danych jest następnie przekształcana do specjalnej struktury da- 
nych, zwanej FP-drzewem (11.4.3). 

Drugi krok polega na eksploracji powstałego w kroku pierwszym FP-drzewa. 
Eksploracja polega na analizowaniu powstałego FP-drzewa w celu znalezienia 
zbiorów częstych. 


Dzięki zastosowaniu oszczędnej struktury danych, jaką jest FP-drzewo, baza da- 
nych jest skanowana tylko dwa razy. Pierwszy raz w celu wyznaczenia częstości 
wystąpienia każdego z elementów i kompresji bazy danych. Drugi raz w celu kon- 
strukcji FP-drzewa. Od tego momentu wszystkie operacje związane z wyznacza- 
nie zbiorów częstych są realizowana w odniesieniu do tego FP-drzewa. Algorytm 
FP-Growth jest o rząd wielkości szybszy niż algorytm Apriori. 


11.4.2. Kompresja bazy danych 


Proces kompresji bazy danych polega na usunięciu z wszystkich transakcji 
niektórych elementów. Proces ten opiera się na wyznaczeniu wszystkich jedno- 
elementowych zbiorów częstych. Po wyznaczeniu wszystkich takich jednoele- 
mentowych zbiorów częstych, wszystkie transakcje T; są transformowane do po- 
staci skompresowanej T,,. Kompresja w tym kroku polega na usunięciu z każdej 
transakcji wszystkich elementów, które nie są jednoelementowymi zbiorami czę- 
stymi. Ostatni krok kompresji bazy danych polega na posortowaniu elementów 
wewnątrz każdej transakcji według malejącej wartości wsparcia. 

Kompresję bazy danych zilustrować można następującym przykładem. Niech 
min_sup =3 oraz dostępna jest poniższa baza transakcji: 


TID || Elementy 


f, a, c, d, g, i,m, p 
a, b, c, f,1, m, o 
b, f, h, j, o 

b, c, k, s, p 

a, f, c, e, l, p, m, n 


aor © ND =e 


Algorytm wymaga, aby wyznaczyć wsparcie każdego elementu jaki pojawia się 
w transakcjach (pierwsze skanowanie bazy danych transakcji). W wyniku otrzy- 
muje sie wartości wsparcie jak w tabeli poniżej: 


ficlaļlbim lLio;/dje/gi h ij] | k 


Kolejny krok polega na usunięciu z każdej transakcji przedmiotów o wsparciu 
mniejszym niż założony próg (min_sup). W wyniku otrzymuje się posortowaną 
listę częstych przedmiotów (tab.|11.3). 
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Tab. 11.3: Posortowana lista częstych przedmiotów. 


flcja|b|m|p 
4|4 3|13|3|3 


Ostatni krok kompresji bazy danych polega na usunieciu z kazdej transakcji 
elementów, które nie znajduja sig w tabeli [11.3] i posortowaniu elementów we- 
wnatrz transakcji wedtug malejacej wartosci ich wsparcia. Wynikiem tej operacji 
jest lista elementów przedstawiona w tab.[11.4] 


Tab. 11.4: Baza danych transakcji po kompresji. 


TID || Elementy 


f,c,a, m, p 
f, c, a, b, p 
f, b 

c, b, p 
f,c,a, m, p 


OT R W Ne 


11.4.3. FP-drzewo 


FP-drzewo jest ukorzenionym, etykietowanym w wierzchołkach grafem acy- 
klicznym. Korzeń owego grafu posiada etykietę null. Pozostałe wierzchołki grafu 
reprezentują jednoelementowe zbiory częste. Z każdym wierzchołkiem (z wyłą- 
czeniem korzenia) związana jest etykieta oraz licznik transakcji, który reprezen- 
tuje liczbę transakcji wspierających dany zbiór. 

Proces transformacji do FP-drzewa polega na tworzeniu w FP-drzewie ko- 
lejnych ścieżek, które odpowiadają kolejnym transakcją. Kolejność występo- 
wania elementów w posortowanej transakcji, odpowiada kolejności wierzchoł- 
ków w ścieżce FP-drzewa reprezentującej daną transakcję. Dla każdego nowego 
wierzchołka, który został dodany do ścieżki, wartość licznik transakcji jest po- 
czątkowo równa 1. 

Jeśli do FP-drzewa jest transformowana nowa transakcja (T,,), która posiada 
wspólną listę elementów (tzw. prefiks) z transakcją już przetransformowaną do 
FP-drzewa (T;;), to transakcja T,, po transformacji współdzieli ścieżkę reprezen- 
tującą wspólny prefiks z transakcją T,,. Pozostałe elementy transakcji T,,, które 
nie należą do wspólnego prefiksu, tworzą nowe wierzchołki połączone łukami. 

Zatem pojedyncza ścieżka w FP-drzewie, która rozpoczyna się w korzeniu, re- 
prezentuje zbiór transakcji zawierających identyczne elementy. Licznik transak- 
cji ostatniego wierzchołka danej ścieżki zawiera informacje o liczbie transakcji 
wspierających zbiór elementów reprezentowanych przez wierzchołki grafu nale- 
zace do tej ścieżki. 
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W trakcie transformacji kolejnych transakcji tworzona jest tzw. tablica na- 
główkowa elementów, która jest strukturą danych pełniącą rolę katalogu — dla 
każdego elementu wskazuje ona jego lokalizację w FP-drzewie. 

Na rys. pokazano przykład transformacji zbioru transakcji opisanych 
w o Er Natomiast na rys.[11.8]pokazano FP-drzewo po trans- 
formacji ostatniej transakcji ze zbioru transakcji wraz z tablicą nagłówkową ele- 
mentów. 


960006 
PHHH 


Rys. 11.8: FP-drzewo wraz z tablicą nagłówkową elementów dla transakcji z tabeli 


114] (a. 


11.4.4. Eksploracja FP-drzewa 


Kolejny etap odnajdowania zbiorów czestych za pomoca algorytmu FP- 
Growth polega na eksploracji powstatego w poprzednim kroku FP-drzewa. Pro- 
ces ten polega na przeszukiwaniu tablicy nagłówkowej elementów, w kierunku 
od dołu do góry. Dla każdego elementu x z tablicy nagłówkowej jest znajdowana 
tzw. warunkowa baza wzorca, czyli zbiór wszystkich ścieżek prefiksowych wierz- 
chołka x. Ścieżka prefiksowa jest to ścieżka prowadząca od korzenia do wierz- 
chołka x. 
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Kontynuacja eksploracja FP-drzewa polega na konstrukcji tzw. warunkowego 
FP-drzewa. Proces ten polega na potraktowaniu warunkowej bazy wzorca x jako 
małej bazy danych transakcji D(x). A zatem dla D(x) możemy skonstruować 
nowe FP-drzewo, które nosi nazwę warunkowego FP-drzewa. Jeżeli powstałe wa- 
runkowe FP-drzewo posiada tylko jedną ścieżkę algorytm zatrzymuje się i wypi- 
suje wszystkie zbiory częste (sposób generowania zbiorów został przedstawiony 
w podrozdziale[11.2.2). W przeciwnym razie cały opisany algorytm powtarza sie 
dla powstałego warunkowego FP-drzewa. Algorytm ten polega zatem na wyko- 
nywaniu rekurencyjnego przeszukiwania po strukturze drzewa. Eksporację FP- 
drzewa można zilustrować następującym przykładem. 

Niech w FP-drzewie istnieją dwie ścieżki prefiksowe dla elementu p. Są 
to [f:2,c:2,a:2,m:2]|oraz[c:1,b:1]. Dla tych dwóch transakcji tylko c jest ele- 
mentem częstym (bo wystąpiło 3 razy). Zatem warunkowe FP-drzewo ma jeden 
wierzchołek [c : 3]. W tym wypadku FP-drzewo ma tylko jedną ścieżkę i wygene- 
rowany zbiór częsty to {p, c}. 

Dla elementu m, podobnie jak dla elementu p, istnieją dwie ścieżki prefik- 
sowe. Są to [f:2,c:2,a:2] oraz [f:1,c:1,a:1,b:1]. Elementami częstymi dla 
tych dwóch transakcji są f, c, a (każdy z nich występuje 3 razy). Warunkowe FP- 
drzewo znajduje się na rysunku (11.9). 


Rys. 11.9: Warunkowe FP-drzewo dla warunkowej bazy danych elementu m, [4]. 


Korzystając z warunkowego FP-drzewa można odczytać następujące 
zbiory częste £f, mł, ic, m}, ta, m}, { f,c, m}, ff, a, m}, {c, a, m}, { f,c, a, m). 

Pseudokod algorytmu FP-Growth wraz z wyjaśnieniem zasady generowania 
zbiorów częstych z warunkowego FP-drzewa opisano w podrozdziale (11.4.5). 


11.4.5. Procedura FP-Growth 


Listing 11.3: Procedura FP-Growth. 


FP-Growth(Tree, a) 
if (Tree zawiera pojedynczą ścieżkę P) 
then 
for each kombinacji $ wierzchołków ścieżki P do 
generuj zbiór a U ß o wsparciu równym minimalnemu wsparciu 
elementów należących do 8. 
end do 
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else 
for each a; należącego do tablicy nagłówkowej elementów Tree do 
generuj zbiór 6 = a; U a o wsparciu = wsparcie (a;) 
utwórz warunkową bazę wzorca 6 
utwórz warunkowe FP—drzewo wzorca f — Tree—B 
if Tree— BA © then 
FP—Growth(Tree— p, p) 
end do 
end 


11.5. Generowanie reguł na podstawie zbiorów częstych 


Jak opisano w podrozdziale|11.2.3| reguły asocjacyjne generowane są na pod- 
stawie zbiorów częstych. Należy podkreślić, że w przypadku dużej ilość zbiorów 
częstych, a także ich dużej liczności - ilość reguł może być ogromna (do tego stop- 
nia, że wyciągnięcie z nich wniosków może być kłopotliwe). Algorytm generowa- 
nia reguł asocjacyjnych można zapisać tak, jak na listingu[11.4] 


Listing 11.4: Generowanie reguł asocjacyjnych na podstawie zbiorów częstych. 


Function Generuj_reguły(X) 
for each (zbiór częsty X) 
for each (Niepusty zbiór A będący podzbiorem X) 
B=X-A 
sup(A — B) — sup(AUB) = sup(X) 
conf(A — B) — sup(AU B)/sup(4) 
if conf(A > B)> minconf 
A— B jest reguła asocjacyjną 
end 
end 
end 


11.6. Implementacja 


Implementacja algorytmów przedstawionych w podrozdziatach|11.3Joraz[11.4] 
okazała się niespecjalnie trudnym zadaniem. Do jego realizacji wykorzystano 
i zmodyfikowano klasy dostępne w [2]. Jako efekt końcowy powstał program w ję- 
zyku Java oferujący interfejs użytkownika pozwalający na wygodne wybranie pli- 
ków z danymi oraz generowanie zbiorów częstych (do pliku, bądź na ekran). 


11.6.1. Obsługa programu 


Program umożliwia wybranie pliku z danymi. Dane muszą mieć format cał- 
kowitoliczbowy, gdzie każdy rekord zapisany jest w osobnej linii. Pojawienie 
się w rekordzie konkretnej wartości oznacza dla programu wystąpienie atrybutu 
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przyporządkowanego do tego numeru w konkretnej transakcji. Dla przykładu, 
plik wejściowy w postaci: 


1 


H MR DN N 


3 


4 
4 
2 
2 


4 


5 
6 
5 
6 


oznacza bazę danych z transakcjami {{1, 3, 4}, {2, 4, 5}, {2, 4, 6}, {1, 2, 5}, {1, 2, 6}}. 
Na rys.|11.10|przedstawiono główne okno programu. Znaczenie poszczególnych 


pól jest następujące: 
r I 
|S} Association rule mining window ¡[ES 


iS 


} -> {1} 100.0% 


(3) {1 3} > {4} 100.0% 
(4) {1 43 > {3} 100.0% 
} > £14} 100.0% 
} 100.0% 

} > {2} 100.0% 
8) {1 5} > {2} 100.0% Algorytm: AprioriT 
Ko) {4.5} > {2} 100.0% 


10) {6} -> {2} 100.0% E 
11) {1 6} > {2} 10 by ew AŻ 
(12) (4 6} -> {2} 100. 

13) {1} -> {2} 66.66% R 
14) {4} -> {2} 66.66% Zaufanie:65 


} -> 44) 100.0% bierz plik z “1 Otwórz... 


Nazwa pliku z danymi: test.num 


E eneration time =00 seconds 0.0 mins Generation time = 0.0 seconds (0.0 mins 


Rys. 11.10: Okno programu. 


. Wybór pliku z danymi. 


Wybór algorytmu oraz ustawienie jego parametrów: wsparcia i zaufania. 


. Włączenie generowania pliku wynikowego (należy podać jego nazwę). W przy- 


padku, gdy ta opcja jest wyłączona, wyniki (tj. wygenerowane reguły) zostaną 
wyświetlone w oknie programu. 
Uruchomienie algorytmu. 


. Wygenerowane reguły w formacie (numer) przesłanka -> wniosek zaufa- 


nie[%]. 
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6. Czasy generowania odpowiednio zbiorów częstych i reguł asocjacyjnych na 
podstawie zbiorów częstych. 


11.6.2. Wykonane testy 


Do testowania efektywności działania algorytmu zostały wykorzystane dane 
z [B]. Zawierają one opisy sytuacji wypadków (rodzaj terenu, zakres prędkości 
itp.). Szczegółowy opis znajduje sig pod adresem http://fimi.cs.helsinki.| 
Zbiór atrybutów ma liczność równą 572, natomiast 


zmiennym parametrem w testach jest ilość rekordów (największy zbiór ma 150 
tysięcy rekordów). 

Podczas pracy programu mierzono osobno czas generowania zbiorów czę- 
stych i oraz czas generowania reguł asocjacyjnych na podstawie zbiorów czę- 
stych. Przyjęto wsparcie sup=60% i zaufanie conf=90%. Testy przeprowadzono 
na komputerze Intel Q6600©2.75Ghz, 6GB RAM, Windows Vista. Wyniki symu- 
lacji dla podanych zbiorów danych przedstawiono w tab.[11.5]oraz na rys. 


i rys. 


Tab. 11.5: Czasy działania algorytmów dla zbioru testowego, wsparcie = 60%, za- 
ufanie = 90%. 


rekordy Apriori-T FP-growth 
zbiory [s] | reguły [s] | suma [s] | zbiory [s] | reguły [s] | suma [s] 
150000 16,64 0,68 17,32 0,16 0,7 0,86 
140000 15,5 0,65 16,15 0,08 0,66 0,74 
130000 14,15 0,64 14,79 0,07 0,6 0,67 
120000 13,27 0,66 13,93 0,07 0,61 0,68 
110000 12 0,65 12,65 0,06 0,6 0,66 
100000 10,86 0,66 11,52 0,06 0,61 0,67 
90000 9,52 0,68 10,2 0,05 0,59 0,64 
80000 8,85 0,85 9,7 0,05 0,59 0,64 
70000 7,38 0,64 8,02 0,03 0,65 0,68 
60000 6,04 0,6 6,64 0,03 0,59 0,62 
50000 5,2 0,6 5,8 0,03 0,6 0,63 
40000 4,12 0,58 4,7 0,02 0,61 0,63 
30000 2,95 0,59 3,54 0,02 0,65 0,67 
20000 1,97 0,6 2,57 0,01 0,55 0,56 
10000 1,12 0,91 2,03 0,01 0,82 0,83 


11.6.3. Podsumowanie 


Okazuje się, że podstawowym problemem (zarówno jeżeli chodzi o złożoność 
obliczeniową, jaki złożoność pamięciową) w odkrywaniu reguł asocjacyjnych jest 
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Odkrywanie reguł decyzyjnych (Apriori-T) 
T T T 


Czas wykonywania [s] 


llość rekordów x 10° 


Rys. 11.11: Czasy dziatania algorytmu Apriori-T. 


Odkrywanie reguł decyzyjnych (FP-Growth) 
0.9 T T T T T T T 


Czas wykonywania [s] 


Liczba rekordów * 10° 


Rys. 11.12: Czasy dziatania algorytmu FP-growth. 


generowanie zbiorów częstych. Widać to szczególnie wyraźnie w przypadku algo- 
rytmu Apriori, którego czasy generowania zbiorów częstych są wielokrotnie więk- 
sze niż generowania reguł na ich podstawie. Wiąże się to m.in. z wielokrotnym 
odczytywaniem bazy danych (przetwarzanie informacji zapisanej na dysku jest 
dużo wolniejsze niż przetwarzanie informacji w pamięci). Należy jednak pamię- 
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tać, ze przechowanie informacji o zbiorach danych i zbiorach częstych w pamięci 
operacyjnej komputera wymaga wykorzystania złożonych i oszczędnych struktur 
(jak na przykład T-drzewo). 

Warto też zauważyć, że czasy generowania reguł asocjacyjnych na podstawie 
zbiorów częstych są bardzo zbliżone dla FP-growth i Apriori-T (które używają 
tego samego algorytmu do ich uzyskiwania). Niewielkie różnice mogą brać się 
ze sposobu dostępu do nieco innych struktur danych służących do przechowy- 
wania zbiorów częstych. 
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ROZDZIAL 


INTERFEJSY PROGRAMOWE 
SPOLECZNOSCIOWYCH PORTALI 


M. Dubrawski, J. Jewłoszewicz 


Portale społecznościowe są ogromnymi zasobami wiedzy. Gromadzą infor- 
macje z takich dziedzin, jak np. muzyka czy film, ale również informacje na te- 
mat ludzi, ich wzajemnych relacji, zainteresowań czy poglądów. W tym rozdziale 
skupiono się na przykładowym wykorzystaniu interfejsów programowych popu- 
larnych serwisów w celu komputerowego przetworzenia zawartych w nich treści. 


12.1. Portale społecznościowe 


Portale społecznościowe są serwisami internetowymi skupiającymi i współ- 
tworzonymi przez osoby o podobnych zainteresowaniach lub poglądach [1] [2]. 
Podstawową funkcją takich portali jest tworzenie własnego profilu osobowości, 
w którym zamieszczane są informacje o użytkowniku, jego zainteresowaniach, 
wyglądzie oraz gustach. Dzięki takiej budowie systemu możliwe jest odnajdy- 
wanie profili innych użytkowników, znajomych bądź osób o podobnych zainte- 
resowaniach. Serwisy zapewniają pewien stopień prywatności, ukrywając część 
bardziej poufnych informacji przed obcymi. Dostarczają one również użytkowni- 
kom wielu możliwości komunikowania się za pośrednictwem takich narzędzi jak 
czaty, komunikatory, fora dyskusyjne czy prywatne lub publiczne wiadomości. 
Można wyróżnić dwa charaktery portali społecznościowych [2]: 


e otwarte (ang. external social networking, ESN)- każda osoba może się do niego 
zapisać, 

e zamknięte (ang. internal social networking, ISN) - do serwisu mogą dołączyć 
osoby, które otrzymały zaproszenia od innych użytkowników serwisu lub legi- 
tymują się np. adresem pocztowym w danym serwisie. 


12.1.1. Podejście socjologiczne 


Portale społecznościowe wywarły nieodwracalny wpływ na kulturę, tradycję, 
sposób kontaktów międzyludzkich i życie milionów ludzi na całym świecie [2]. 


12. Interfejsy programowe społecznościowych portali 


Z tego względu stały się ciekawym zagadnieniem dla badań socjologicznych. Naj- 
poważniejsze problemy wiążące się z powstaniem tych serwisów dotyczą: 


e prywatności i tożsamości - użytkownicy często ujawniają zbyt wiele iformacji 
na swój temat, umożliwiając np. kradzież tożsamości, napady rabunkowe lub 
stwarzając motywy do zwolnienia z pracy, 

rozwoju całego Internetu - w przypadku Polski portal nasza-klasa.pl spowo- 
dował napływ rzeszy nowych internautów, którym dotąd Internet nie był przy- 
datny, 

przeniesienia relacji z świata realnego do świata wirtualnego - wielu użytkow- 
ników serwisów przekłada kontakt za pośrednictwem portalu społecznościowy 
nad kontakt rzeczywisty ze względu na jego prostotę, szybkość i oszczędność 
energii. 


12.1.2. Historia 


Początek rozwoju serwisów społecznościowych przypada na połowę lat 90 [3]. 
Przykładami pierwszych portali były Theglobe.com (1994), Geocities (1994) oraz 
Tripod (1995). Skupiały się one na pozyskiwaniu użytkowników przez udostęp- 
nienie im możliwości wzajemnej interakcji, wymiany informacji na swój temat 
i własnych pomysłów za pomocą prywatnych stron, oraz wsparcie narzędziami 
pozwalającymi na łatwe publikowanie powyższych treści w internecie. Pod ko- 
niec lat 90 wprowadzono funkcję listy znajomych i możliwość szukania użytkow- 
ników o podobnych zainteresowaniach. Kolejne serwisy wprowadzały coraz bar- 
dziej rozbudowane funkcje i wkrótce stały się jednym z dominujących trendów 
wykorzystania Internetu. Potwierdzeniem bardzo szybkiego wzrostu popularno- 
ści portali społecznościowych było odnotowanie większej liczby odwiedzin por- 
talu MySpace niż Google. Facebook uruchomiony w 2004 roku jest obecnie naj- 
większym serwisem tego typu. Szacuje się, że na świecie istnieje ponad 200 ak- 
tywnych portali społecznościowych. 


12.2. Przykładowe wykorzystanie interfejsów 
programowych portali społecznościowych 


W tym podrozdziale opisano przykład wykorzystania ogólnodostępnych in- 
terfejsów programowych aplikacji określonych portali społecznościowych. Inter- 
fejs programowy aplikacji (ang. Aplication Programming Interface, API) to inter- 
fejs do programowania aplikacji (w postaci biblioteki procedur lub innej formy 
oprogramowania), umożliwiający realizację określonego zakresu zadań (dostęp 
do bazy danych, systemu operacyjnego, interfejsu graficznego itp. z pewnego ję- 
zyka programowania) [4]. 

Pomysłem autorów było wykorzystanie istniejących interfejsów programo- 
wych aplikacji do stworzenia klienta sieciowego agregującego informacje z róż- 
nych portali społecznościowych o konfigurowalnym interfejsie użytkownika. 
Strona webowa aplikacji zbudowana byłaby z segmentów, z których każdy po- 
wiązany byłby z wybranym przez użytkownika portalem. W zamierzeniu seg- 
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menty byłyby tworami dynamicznymi, dodawanymi, usuwanymi oraz mini- 
malizowanymi bez konieczności odświeżania strony. Dodatkową funkcją by- 
łaby możliwość dowolnego rozmieszczania segmentów przez użytkownika me- 
toda drag’ndrop (podobnie jak ma to miejsce z elementami w iGoogle, zobacz 


rys.[12.1). 


| (| Tube] 


Rys. 12.1: Schemat ideowy. 


Główną cechą systemu, a zarazem zasadniczą różnicą w stosunku do interfej- 
sów użytkownika proponowanych przez portale społecznościowe, byłoby profi- 
lowane wyświetlane treści pochodzących z różnych serwisów. Polegałoby to na 
możliwości wyboru przez użytkownika informacji najbardziej dla niego atrakcyj- 
nych. Każdy element witryny byłby przypisany do konkretnego serwisu oraz za- 
wierałby rozłączne, w stosunku do innych segmentów, treści. Dzięki takiemu roz- 
wiązaniu użytkownik określonych portali społecznościowych miałby możliwość 
jednoczesnego przeglądania interesujących go informacji związanych z profilami 
na tych portalach oraz usuwania segmentów z treścią, która jest dla niego mniej 
istotna. Przykładowa aplikacja zakładała wykorzystanie interfejsu programistycz- 
nego udostępnionego przez najpopularniejszy obecnie portal społecznościowy 
Facebook oraz integrację z serwisami Last.fm i YouTube. 


12.2.1. Przykładowe funkcje segmentów 


Wykorzystanie API udostępnianych przez portale społecznościowe ma służyć 
filtrowaniu informacji związanych z zainteresowaniami użytkownika. 

Facebook jest portalem agregującym przede wszystkim informacje o zainte- 
resowaniach, gustach naszych znajomych oraz polecanych przez nich ciekawych 
linkach, filmach czy utworach muzycznych. Dlatego autorzy zaproponowali na- 
stępujące typy segmentów współdziałających z Facebook iem: 


e filtrowanie postów związanych z rodziną użytkownika, 

e filtrowanie postów związanych z partnerem użytkownika, 

e wyświetlanie linków do zdjęć dodanych do portalu przez znajomych, 

e rekomendacje artykułów, linków lub klipów wideo najbardziej lubianych przez 
znajomych. 
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W przypadku skorzystania z interfejsu programowego aplikacji portalu 
Last.fm, który jest największym katalogiem muzycznym online na świecie, przy- 
gotowano następujące założenia dotyczące treści ewentualnych segmentów pod- 
łączonych do bazy danych serwisu Last.fm: 


e utworach aktualnie odsłuchiwanych przez znajomych, 

e utworach najczęściej odstuchiwanych w tygodniu przez użytkownika, 

e najpopularniejszych utworach w portalu w oparciu o gusta muzyczne użytkow- 
nika (wykorzystanie tagów), 

najpopularniejszych artystach w portalu w oparciu o gusta muzyczne użytkow- 
nika (wykorzystanie tagów). 


12.3. Facebook 


Facebook jest obecnie najpopularniejszym społecznościowym serwisem in- 
ternetowym na świecie. Liczba aktywnych użytkowników przekracza 500 mln 
(zobacz rys.[12.2). Swoją popularność Facebook osiągnął dzięki prostocie obsługi 
oraz wielu funkcjom udostępnionym użytkownikom. 


Wzrost liczby użytkowników Facebook'a 


Liczba użytkowników [mln] 


U 12 24 36 48 60 72 84 


Czas [miesiące] 


Rys. 12.2: Wykres wzrostu liczby użytkowników serwisu Facebook. 


12.3.1. Funkcjonalności Facebook'a 


Jak w każdym serwisie społecznościowym Facebook umożliwia tworzenie 
własnych profili użytkownika. Głównym elementem strony ilustrującej profil jest 
ściana (ang. wall), która jest jednym z możliwych sposobów komunikacji mie- 
dzy użytkownikami. Naścianie pojawiają się również automatycznie generowane 
wiadomości na temat zainteresowań naszych znajomych oraz ich działalności na 
portalu. 

Na utworzonym przez siebie profilu użytkownik może umieścić swoje zdję- 
cia pogrupowane w albumy tematyczne. Każde zdjęcie może skomentować oraz 
zaznaczyć znajomych z portalu, którzy również się na nim znaleźli. 
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Facebook umożliwia wiele sposobów komunikowania się między uzytkow- 
nikami. Oprócz wspomnianej już ściany, istnieje również czat, który wyświetla 
dodatkowo listę zalogowanych aktualnie znajomych, oraz możliwość przesłania 
prywatnej wiadomości w formie listu. Ponadto Facebook pozwala na tworze- 
nie i uczestniczenie w grupach tematycznych oraz wymianę informacji wewnątrz 
tych grup. 

Jedną z ważniejszych funkcji są tzw. like pages. Użytkownik ma możliwość 
łatwego dzielenia się ze znajomymi swoimi zainteresowaniami, ciekawymi lin- 
kami, filmikami, muzyką lub artykułami prasowymi. Mechanizm umożliwiający 
działanie tej funkcji został opisany w podrozdziale[12.3.3] 

Rozbudowany system rekomendacji pozwala na deklarowanie swojej obecno- 
ści na różnego rodzaju wydarzeniach oraz polecanie swoim znajomym do przy- 
łączenia się do różnego typu akcji. 

Duży wpływ na zachęcenie użytkowników do regularnego korzystania z ser- 
wisu oraz powiększania liczby znajomych wciąż mają gry udostępnianie przez Fa- 
cebook'a. Ponieważ sukces oraz postępy w grze wymagają częstego odwiedzania 
serwisu, liczby aktywnych użytkowników (logujących się co najmniej raz w mie- 
siącu) bardzo wzrosła. Rywalizacja pomiędzy znajomymi, grającymi w tę samą 
grę, zmusza do aktywnego uczestniczenia w portalu. Gry takie jak FarmVille czy 
MafiaWars gromadzą dziesiątki milionów użytkowników. 


12.3.2. Historia Facebooka 


Mark Zuckerberg w październiku 2003 roku napisał poprzednika Facebook'a 
o nazwie Facemash. Był to portal typu „Hot or not”, na stronie pojawiały się zdję- 
cia dwóch studentek Harvardu, a użytkownik miał wybrać tę z bardziej odpowia- 
dającym mu wizerunkiem. Z uwagi na nielegalne ściągniecie zdjęć wykorzysty- 
wanych w serwisie, Facemash działał jedynie przez 4 godziny. Udało mu się jed- 
nak w tym krótkim czasie zachęcić ponad 450 użytkowników, którzy przejrzeli 
ponad 22 000 zdjęć. 

Zachęcony sukcesem student drugiego roku postanowił napisać elitarny por- 
tal społecznościowy. Elitarny ze względu na wymaganie posiadania konta pocz- 
towego na serwerze uczelni Harvard. Ogromne powodzenie przedsięwzięcia spo- 
wodowało ekspansję TheFacebook'a (tak się pierwotnie nazywał serwis) na inne 
uczelnie amerykańskie. 

W 2005 roku szybko rosnąca popularność serwisu skłoniła założycieli do po- 
większenia grona użytkowników o uczniów liceum (wymagane było zaproszenie 
od użytkownika portalu) oraz kilku firm, w tym Apple i Microsoft. 

Dwa lata później Microsoft kupił 1,6% akcji Facebook'a za kwotę 240 mln do- 
larów. W 2008 roku Facebook umożliwił korzystanie z serwisu Europejczykom. 
Obecnie wartość rynkowa Facebook'a wyceniana jest na 25 mld dolarów. W Pol- 
sce jest ponad 8 mln aktywnych użytkowników. 
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12.3.3. Współdziałanie z Facebook'iem 


Dane z portalu Facebook są przechowywane w formie grafu społecznego (ang. 
social graph) (5). Graf składa się z dwóch typów elementów: obiektów (użytkow- 
ników, zdjęć, wydarzeń itp.) oraz tzw. połączeń (ang. connection). Platforma Fa- 
cebook'a udostępnia trzy narzędzia umożliwiające integracje grafu społecznego 
z zewnętrznymi stronami internetowymi, aplikacjami oraz urządzeniami. 


12.3.4. Graph API 


Graph API zapewnia możliwość czytania danych z bazy Facebook'a oraz ich 
zmianę. Udostępnia prostą i jednolitą reprezentację obiektów grafu i połączeń 
pomiędzy nimi. Każdy obiekt w grafie społecznościowym posiada unikalny iden- 
tyfikator. Aby dowiedzieć się o właściwościach danego obiektu należy posłu- 
a się ae url o nastepujacej strukturze 
Natomiast w ver padana połączenia duiyozan pa danego obiektu https : | 


g ] 
Typy obiektów występuj a w grafie społeczności: 


e użytkownik e aplikacja e zdjęcie profilowe 
e strona e wiadomość statusowa œ video 
e wydarzenie e zdjęcie e notatka 
* grupa e album 
Typy potaczen: 
e znajomi e muzyka e tagi video 
e wiadomości e książki e wydarzenia 
e ściana (wall) e notatki e grupy 
e zainteresowania tagi zdjęć 
e filmy e albumy 


Wszystkie odpowiedzi bazy Facebooka są zwracane w formacie JSON 
(patrz (12.6.3)). Przykładowy wynik zapytania o obiekt typu użytkownik wygląda 
następująco: 


{ 
"id": "671798440", 


"name": "Maciej Dubrawski", 

"first_name": "Maciej", 

"last_name": "Dubrawski", 

"link": "http://www. facebook.com/people/Maciej—Dubrawski/", 
"gender": "male", 

"locale": "en_US" 
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Natomiast odpowiedź na zapytanie o połączenie typu film 


{ 
"data": [ 
{ 
"name": "The Rock (1996)", 
"category": "Movie", 
"id": "114324145263104", 
"created_time": "2010-11-01T10:15:55+0000" 


} 
12.3.5. Social plugins 


Social plugins pozwalaja na sprawdzenie, co znajomi lubia lub co skomen- 
towali na różnych stronach internetowych. Wszystkie wtyczki są rozszerzeniami 
Facebook 'a specjalnie zaprojektowanymi tak, że żadna z informacji o użytkow- 
niku nie jest udostępniana stronie, na której się pojawia. Istnieją dwa sposoby 
umieszczenia wtyczek na stronie: XFBML (rekomendowany) oraz Iframe. Naj- 
ważniejsze wtyczki: 


e przycisk logowania e przycisk Lubię to!’ e Facepile 
e rekomendacje e komentarze 


Wtyczki są bardzo przydatnymi narzędziami, gdy celem jest połączenie za- 
wartości strony internetowej z zasobami Facebook'a. Dzięki przyciskowi logowa- 
nia, użytkownik może zalogować się na swoje konto na Facebook bez potrzeby 
wchodzenia na orginalną stronę logowania. W dużym stopni ułatwia mu to ko- 
rzystanie z różnego rodzaju stron posiadających sprzężenie z Facebook'iem. 

Rekomendacje dotyczące danej strony, pojawiają się w nawiązaniu do zain- 
teresowań użytkownika. Dzięki temu mechanizmowi rekomendacje są możliwie 
najlepiej dopasowane do użytkownika i zawierają potencjalnie najbardziej pożą- 
dane informacje. 

Przycisk Lubię to! (ang Like button) jest jedną z najpopularniejszych i najczę- 
ściej spotykanych wtyczek udostępnianych przez Facebook a. Dzięki niej do bazy 
danych Facebook'a przesyłana jest informacja o tym czym użytkownik się inte- 
resuje i co lubi oraz stosowana notatka jest natychmiastowo generowana i pu- 
blikowana na ścianie profilu. Wtyczka ta wykorzystuje Open Graph protocol 


(patrz (12.3.6)). 
12.3.6. Open Graph protocol 

Open Graph protocol jest narzędziem współpracującym z wtyczką Lubię to". 
Pozwala on na integrację stron internetowych z grafem społeczności. Dzięki temu 


strony zyskują funkcjonalności innych obiektów grafu. 
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Open Graph protocol wykorzystuje metadane zawarte na stronie. Przy po- 
mocy tych informacji kategoryzuje ją jako obiekt jednej z klas. Przykładowe wy- 
korzystania Open Graph protocol w odniesieniu do portalu z katalogiem filmów 
prezentuje poniższy fragment kodu: 


<html xmlns="http://www.w3.org/1999/xhtml" 
xmlns:og="http://opengraphprotocol.org/schema/" 
xmlns:fb="http://www.facebook.com/2008/fbml"> 
<head> 


<title>The Rock (1996)</title> 

<meta property="og:title" content="The Rock"/> 

<meta property="og:type" content="movie"/> 

<meta property="og:url" content="http://www.imdb.com/..."/> 

<meta property="og:image" content="http://.../rock.jpg"/> 

<meta property="og:site_name" content="IMDb"/> 

<meta property="fb:admins" content="USER_ID"/> 

<meta property="og:description" 

content="A group of U.S. Marines, under command of 
a renegade general, take over Alcatraz and 
threaten San Francisco Bay with biological 
weapons. "/> 
</head> 
</html> 


W celu zaznaczenia swojego zainteresowania daną witryną użytkownik (za- 
logowany do Facebook'a) musi jedynie nacisnąć widoczny na stronie przycisk 
'Lubię to!’ oraz ikonkę publikowania informacji na ścianie. Po tych operacjach 
wygenerowana zostanie automatycznie notatka na stronie profilu użytkownika 
(analogiczna do tej zaprezentowanej na rys.[12.3) oraz zostanie utworzone połą- 
czenie pomiędzy obiektem reprezentującym użytkownika oraz konkretną stroną. 


: Maciej Dubrawski 
pe a- The Rock (1996) 
www.imdb.com 


Directed by Michael Bay. With Sean Connery, Nicolas Cage, Ed Harris, John 
Spencer 


$]] a few seconds ago ` Comment ` Like * Share 


Rys. 12.3: Efekt działania Like button’ i Open Graph protocol. 


Wymagane pozycje dla Open Graph protocol zawarte w metadanych: 
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e og:title -tytuł obiektu 

e og:type - typ obiektu 

e og:image - adres url obrazka reprezentującego obiekt (min. 50x50) 
e og:url - adres url obiektu, będący niepowtarzalnym ID obiektu 


Dostępne kategorie: 

e aktywności, sporty e ludzie (aktorzy, muzycy, sportowcy) 

biznes (firmy, hotele, restauracje) e miejsca (państwa, miasta, prowincje) 

e grupy (ligi sportowe, drużyny spor-* produkty i rozrywka (książki, gry, je- 
towe) dzenie, filmy) 


organizacje (zespoły  muzyczne,* strony internetowe (blogi, artykuły) 
szkoły) 
12.3.7. Autoryzacja 


Autoryzacja jest jednym z istotniejszych aspektów korzystania z interfejsów 
programowych aplikacji serwisów społecznościowych. Dzięki autoryzacji, użyt- 
kownicy mają większa gwarancję, że ich dane osobowe umieszczane na stronie 
nie są ogólnodostępne dla wszystkich aplikacji korzystających z API portali. 


f Request for Permission 


mcedubrawski is requesting permission to do the following: 


ic information 
icture, g 


medubrawski 


E Access posts in my News Feed 


Report Application 


Logged in as Maciej Dubrawski (Not You?) | Allow | Don't Allow 


Rys. 12.4: Okno dialogowe autoryzacji. 


W przypadku Facebook a, każda aplikacja musi zostać zarejestrowana na stro- 
nie. Do rejestracji wymagane są jedynie nazwa aplikacji oraz adres url strony za- 
wierającej aplikację (dla aplikacji webowych). Po zakończeniu rejestracji, admi- 
nistrator dostaje dwa klucze: application ID oraz application secret. 

Wszystkie zarejestrowane aplikacje moją dostęp jedynie do podstawowych in- 
formacji dotyczących użytkowników portalu Facebook takich jak nazwisko użyt- 
kownika, zdjęcie profilowe, płeć oraz lista znajomych. Jeżeli aplikacja chce uzy- 
skać dostęp do bardziej szczegółowych danych, musi poprosić o rozszerzony do- 
stęp do informacji konkretnego użytkownika (przykładowe okno dialogowe poka- 
zano na rysunku[12.4). Po akceptacji przez użytkownika, aplikacja ma wgląd do 
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wszystkich treści objętych rozszerzonym dostępem. Rozszerzony dostęp nie musi 
wymagać od użytkownika portalu udostępnienia wszystkich informacji, może 
poprosić np. tylko o wgląd do zdjęć. Użytkownik ma prawo w dowolnym momen- 
cie anulować rozszerzony dostęp wybranej aplikacji i tym samym zablokować jej 
definitywnie dostęp do swoich danych. 


12.4. Last.fm 


Portal Last.fm łączy w sobie internetową radiostację oraz system muzycz- 
nych rekomendacji. Tworzone są szczegółowe profile gustu muzycznego każdego 
z użytkowników, na podstawie których na spersonalizowanych stronach prezen- 
towane są jego ulubieni artyści i utwory. Uwzględniane są przy tym utwory od- 
tworzone z filtrowanych kanałów radiowych udostępnianych przez serwis oraz 
dodatkowo zarejestrowane przez aplikację Last.fm zainstalowaną na komputerze 
użytkownika i pobierającą informację z odtwarzacza multimedialnego. 


12.4.1. Gromadzenie danych przez portal Last.fm 


Użytkownik Last.fm może rozbudowywać swój profil muzyczny na dwa spo- 
soby: 


¢ odsłuchując posiadane utwory na odtwarzaczu multimedialnym i pozwalając 
oprogramowaniu Last.fm (tzw. scrobblerowi) rejestrować informację o nich, 
e słuchając radia internetowego korzystając z oprogramowania Last.fm. 


Odtworzone utwory dodawane są do logów, dzięki którym powstają sperso- 
nalizowane tabele ulubionych wykonawców i/lub utworów i generowane dzięki 
nim muzyczne rekomendacje. Proces automatycznego logowania danych utworu 
został nazwany scrobblingiem. 


12.4.2. Główne funkcjonalności portalu Last.fm 


Rekomendacje są tworzone przy użyciu algorytmu spersonalizowanego fil- 
trowania. Dlatego użytkownik otrzymuje listę nieznanych mu dotychczas ar- 
tystów, którzy najprawdopodobniej odpowiadają gustowi muzycznemu danego 
użytkownika. Last.fm pozwala także na dowolne polecanie wybranych wykonaw- 
ców, utworów lub albumów muzycznych innym użytkownikom (jeśli tylko reko- 
mendowany element znajduje się w bazie Last.fm). 

Prawdopodobnie najbardziej wykorzystywaną opcją z zakresu wirtualnych 
społeczności, jest możliwość stworzenia grup użytkowników, którzy mają ze sobą 
coś wspólnego. Last.fm wygeneruje grupę, która upodobniona jest do profilu 
użytkownika, z tą różnicą, że tworzone są listy zawierające sumę upodobań 
wszystkich członków danej grupy. 

Last.fm daje użytkownikom możliwość tagowania (tj. przypisywania pewnych 
słów kluczowych) artystów, albumów i utworów, w celu stworzenia rozległej folk- 
sonomii muzyki. Użytkownicy mogą segregować muzykę według tagów, jednak 
większą zaletą tego istnienia tagów jest możliwość korzystania z „radia tagów”, 
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które pozwala użytkownikom słuchać muzyki, jaka została oznaczona w dany 
sposób. 

Wraz z aktualizacją w październiku 2006 roku dodano do portalu zbiór funk- 
cjonalności związanych z wydarzeniami muzycznymi. Pozwala on użytkowni- 
kowi określić dowolną lokalizację i pewną odległość od niej, które będą wykorzy- 
stywane do tworzenia propozycji koncertów, którymi dany użytkownik może być 
zainteresowany. 


12.4.3. Korzystanie z API 


Pierwszym krokiem do korzystania z API portalu Last.fm (prócz oczywiście sa- 
mej rejestracji i zalogowania się w serwisie) jest pozyskanie odpowiedniego klu- 
cza. Należy skonfigurować konto developera, tj. określić formę tworzonej aplika- 
cji (zwykle jest to opcja aplikacji do użytku niekomercyjnego), a także jej nazwę 
oraz krótki opis. Po wysłaniu formularza od razu użytkownik natychmiast otrzy- 
muje dwa klucze opisane jako API_Key oraz secret. W celu tworzenia aplika- 
cji desktopowej wymagane mogą być też biblioteki. W odpowiednim dziale na 
stronie internetowej znajdują się interfejsy do większości popularnych języków 
programowania [6]. 


12.4.4. Żądania REST 


Udostępniane przez Last.fm API można wykorzystać za pomocą usług we- 
bowych w oparciu o architekturę REST. Polega to na wysyłaniu przez klienta 
żądania do serwera, które następnie jest przetwarzane. Serwer posiadający 
dostęp do zasobów zwraca tzw. reprezentację zasobów (ang. representation 
of resource), która zwykle przyjmuje postać dokumentu XML. Zasoby muszą 
mieć pewien jednoznaczny identyfikator URI. Serwer nie przechowuje informacji 
o stanie — to klient odpowiedzialny jest za przejścia pomiędzy różnymi stanami. 

Korzystanie z żądań REST polega na wysyłaniu żądania typu HTTP POST lub 
HTTP GET pod odpowiedni adres URL. W przypadku portalu Last.fm jest to ad- 
resws .audioscrobbler.com/2.0/, W żądaniu wysyłanym do serwisu występuje 
nazwa danej metody w postaci wyrazenia pakiet .metoda, wraz z odpowiednimi 
argumentami [7]. Przykładowo, w celu otrzymania informacji związanych z bio- 
grafią, zdjęciami, odtworzeniami, czy tagami danego artysty należałoby skorzy- 
stać z metody artist.getInfo. Posiada ona szereg parametrów, z których je- 
dynie 2 są wymagane (potrzebny do uwierzytelniania klucz API_KEY oraz nazwa 
artysty). Żądanie HTTP GET w tym przypadku przyjęłoby postać: 


http://ws.audioscrobbler.com/2.0/?method=artist.getinfo 
Gartist=Oasis&api_key=xxx... 


W odpowiedzi na to żądanie usługa webowa serwisu Last.fm wysyła dokument 
XML, w którym w postaci drzewa zawarte są wymagane informacje (w celu skró- 
cenia listingu usunięto zawartość niektórych węzłów drzewa XML): 


<artist> 
<name>Oasis</name> 
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<url>http://www.last.fm/music/0asis</url> 
<image size="small">http://...</image> 
<stats> 

<listeners>2227380</listeners> 

<playcount>79431244</playcount> 
</stats> 
<similar> 

<artist> 

<name>The Verve</name> 
</artist> 


</similar> 
<tags> 
<tag> 
<name>pop</name> 
<url>http://www.last.fm/tag/pop</url> 
</tag> 
</tags> 
<bio> 
<published>Thu, 7 July 2010 20:08:16 +0000</published> 
<summary>...</summary> 
<content>...</content> 
</bio> 
</artist> 


12.4.5. Zadania XML-RPC 


Tworząc zapytania do serwisu można też korzystać z architektury XML-RPC. 
Wysyłając żądania HTTP POST na podany adres podaje się wtedy pewną struk- 
turę zawierającą nazwę metody i jej parametry w postaci dokumentu XML. W po- 
niższym przypadku drzewo dokumentu XML reprezentuje żądanie listy najpopu- 
larniejszych utworów dla użytkownika sample_user. 


<methodCall> 
<methodName>user.gettoptracks</methodName> 
<params> 
<param> 
<value> 
<struct> 
<member> 
<name>user</name> 
<value> 
<string>sample_user</string> 
</value> 
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</member> 
</struct> 
</value> 
</param> 


</params> 
</methodCall> 


Odpowiedź także w tym przypadku przyjmuje postać drzewa XML, podobnie jak 
dla żądań REST. 


12.4.6. Wykorzystanie Last.fm API za pomocą języka Python 


Istnieje możliwość wykorzystania języków skryptowych (takich jak Python czy 
JavaScript) do pobrania danych z Last.fm. Serwis udziela wsparcia Pythonowi 
poprzez udostępnienie modułu pylast (dostępnego na witrynie portalu). Służy 
on do szybkiego, intuicyjnego i wygodnego wykonywania połączeń do tego ser- 
wisu. Przed wykonaniem jakiejkolwiek metody dostępu do danych wymagane 
jest uwierzytelnienie w serwisie za pomocą klucza API_KEY. Początek każdego 
połączenia będzie identyczny — należy stworzyć obiekt network, który służy do 
pobierania odpowiednich obiektów zawierających informacje o artystach, albu- 
mach czy utworach, a także do wysyłania poleceń do serwisu [8]: 


>>> import pylast 

>>> API_KEY = 'Twój API KEY’ 

>>> API_SECRET = ‘Twoje hasło’ 

>>> username = 'nazwa Twojego użytkownika” 

>>> password_hash = pylast.md5('hasło Twojego użytkownika”) 

>>> network = pylast.get_lastfm network(api_key = API_KEY, 
. api_secret = API_SECRET, 


. username = username, 
... password_hash = password_hash) 
>>> artist = network.get_artist('Massive Attack’) 
>>> tracks=artist.get_top_tracks () 


12.5. Implementacja 


Podążając za wytycznymi przedstawionymi w podrozdziale [12.2] utworzono 
aplikację webowa, agregującą dane z kilku najpopularniejszych serwisów spo- 
łecznościowych opisanych powyżej oraz serwisu YouTube. 

Interfejs użytkownika składa się z trzech elementów: 


e menu, umożliwiającego zalogowanie się do portali oraz wyświetlanie widze- 
tów, 

e belki z przełącznikami, umożliwiającymi chwilowe chowanie widzetów skoja- 
rzonych z danym serwisem, 
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e obszaru wyświetlania danych, w którym znajdują się aktywne widzety. 


Przełączniki 


Obszar danych 


Facebook widgets: || Most listened artists (last 3 months) Top rated videos 
You are logged in 


Posts from famiły 


with links 


Last.fm widgets: 
You are logged in 


YouTube widgets: 
You are logged in 


Most fistened tracks (last 7 days) 


Rys. 12.5: Wygląd okna aplikacji. 


12.5.1. Menu 


W menu można wydzielić trzy sektory, odpowiadające trzem serwisom spo- 
łecznościowym. Główną funkcjonalnością menu jest możliwość wyboru danych 
wyświetlanych w obszarze widżetów. Kliknięcie na jedną z możliwości powo- 
duje pojawienie się widżetu z wybranymi danymi (jeśli widżet jeszcze nie znajdo- 
wał się w obszarze wyświetlania danych), bądź aktualizację danych w odpowied- 
nim widżecie (jeśli już wcześniej znajdował się w obszarze wyświetlania danych). 
Menu umożliwia również zalogowanie się do każdego z portali, co jest niezbędne 
do przejścia fazy autoryzacji i poprawnego pobrania informacji z serwisów. 


12.5.2. Widżet 


Widżet jest podstawową jednostką, z której składa się interfejs użytkownika 
(zobacz rys. [12.6). Każdy z widżetów reprezentuje dane pobrane z jednego por- 
talu. Dzięki segmentacji interfejsu na widżety użytkownik ma pełną dowolność 
w wyborze informacji wyświetlanych w oknie przeglądarki. Segmenty można do- 
wolnie przemieszczać w obrębie obszaru wyświetlania danych. 

Widżet składa się z: 

e nagłówka opisującego informacje w nim zawarte, 
e ikony świadczącej o źródle wyświetlanych danych, 
e ikony minimalizacji, 

e ikony zamknięcia, 
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Posty partnera na Facebooku [f] AX 


Dane pobrane z serwisu społecznościowego 


Rys. 12.6: Wygląd pojedynczego widżetu. 


e obszaru zawierającego dane pobrane z portalu. 


12.5.3. Belka przełączników 


Wykorzystując fakt, iż każdy z widżetów należy do jednego z serwisów, wpro- 
wadzono przełączniki umożliwiające ukrywanie wszystkich widżetów powiąza- 
nych z jednym portalem. Dzięki temu, zapewniono użytkownikowi łatwy prze- 
gląd wyświetlanych informacji, minimalizując potrzebę przewijania okna i szu- 
kania wiadomości z konkretnego portalu, gdy wybrano wiele widżetów. 


12.5.4. Typy widżetów 


Dane pobierane z Facebook'a pochodzą z tablicy i są odpowiednio selekcjo- 
nowane na pięć kategorii: 


e posty rodziny e posty ze zdjęciami e posty z linkami 
e posty partnera e posty z wideo 


Last.fm dzięki aplikacji Scrobbler agreguje informacje na temat utworów od- 
słuchiwanych przez jego użytkowników. Jednocześnie portal jest największym 
zbiorem online informacji na temat artystów i ich utworów. Wykorzystując te 
dane utworzono następujące widżety: 


e najczęściej odsłuchiwani artyści w ciągu ostatnich 7 dni oraz 3 miesięcy, 
e najczęściej odstuchiwane utwory w ciągu ostatnich 7 dni oraz 3 miesięcy, 
e lista utworów słuchanych ostatnio przez znajomych użytkownika. 


Serwis YouTube jest największym i najpopularniejszym portalem zawierają- 
cym krótkie pliki wideo. Korzystając z tego faktu zaimplementowano widżety wy- 
świetlające filmiki: 


najczęściej oglądane, 

najwyżej oceniane, 

najczęściej oznaczane jako ulubione przez użytkowników serwisu, 
najczęściej linkowane, 

ostatnio dodane do serwisu. 


Udało się również połączyć dane z Facebook'a i Last.fm z portalem YouTube. Klik- 
nięcie na posta związanego z plikiem wideo umieszczonym w serwisie YouTube 
automatycznie otwiera dodatkowy widżet Player, który odtwarza filmik. 
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Istnieje również możliwość wyszukania na portalu YouTube plików wideo, 
które są skojarzone z najczęściej odsłuchiwanymi artystami. Kliknięcie na ikonkę 
YouTube przy nazwisku artysty automatycznie otwiera nowy widżet zawierający 
pięć najlepszych dopasowań dla danego artysty. 


12.6. Wykorzystane narzędzia 


Wykonanie aplikacji webowej ukazującej przykładowy wykorzystanie interfej- 
sów programowych serwisów społecznościowych opierało się na wykorzystaniu 
szeregu środowisk i bibliotek wykorzystywanych typowo do tworzenia aplikacji 
webowych. 


12.6.1. Programowanie po stronie serwera 


Ze względu na prostotę składni oraz ogromną wszechstronność zdecydowano 
się na zastosowanie języka Python do realizacji podstawowego zadania projektu, 
tj. przetwarzania informacji uzyskanych w wyniku użycie API portali społecz- 
nościowych. W celu stworzenia skalowalnej aplikacji, zgodnej z ogólnie przyję- 
tymi wzorcami programistycznymi zdecydowano się na zaprojektowanie aplika- 
cji wykorzystując do tego celu framework webowy o nazwie Pylons. Jest to fra- 
mework do tworzenia dynamicznych serwisów internetowych, który stawia na 
elastyczność rozwiązań oraz łatwość tworzenia kodu. Wiele jego komponentów 
może zostać zmieniona lub dopasowana, co sprawia, że jest to idealne narzę- 
dzie do budowania wielomodułowej aplikacji webowej, będącej celem projektu. 


Python jest interpretowanym, interaktywnym ję- 
zyk programowania stworzony przez Guido van Ros- R p y t ho N 
suma w 1990. Posiada w pełni dynamiczny system 
typów i automatyczne zarządzanie pamięcią, jest zatem podobny do takich ję- 
zyków, jak Tcl, Perl, Scheme czy Ruby. Python rozwijany jest jako projekt Open 
Source, zarządzany przez Python Software Foundation, będącą organizacją non- 
profit. 

Głównym powodem dla którego autorzy skłonili się do korzystanie z tego ję- 
zyka programowania jest dostępność modułów napisanych w Python'ie zarówno 
dla Facebook'a jak i Last.fm wspomagających korzystanie z interfejsów progra- 
mowych aplikacji. 


12.6.2. Programowanie po stronie klienta 


Utworzenie modułowej witryny internetowej wymaga użycia języka Javascript 
dla spersonalizowania wyświetlanych treści i umożliwienia użytkownikowi wy- 
boru rozmieszczenia elementów na stronie internetowej. Zaplanowano wykorzy- 
stanie nowoczesnej biblioteki jQuery pozwalającej w znacząco łatwiejszy sposób 
korzystać z możliwości języka JavaScript m.in. do implementacji wywołań metod 
w technologii AJAX (ang. Asynchronous JavaScript And XML). Asynchroniczność 
wysyłanych żądań i obsługi zdarzeń pozwalają użytkownikowi witryny na nieza- 
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kłóconą pracę podczas wymiany danych z serwisami społecznościowymi. Dzięki 
temu wyświetlenie kolejnych widgetów nie wymaga odświeżenia całości strony 
internetowej. Biblioteka jQuery pozwala tworzyć zaawansowane funkcjonalno- 
ści w bardzo prosty sposób, przy zachowaniu dużej szybkości działania, mniejszej 
objętości kodu w porównaniu z pozostałymi bibliotekami oraz, co równie istotne, 
zgodności z wieloma popularnymi przeglądarkami. 


12.6.3. JSON 


Dane pochodzące z bazy danych Facebook'a oraz Last.fm są pobierane w for- 
macie JSON. JSON (JavaScript Object Notation) jest lekkim, tekstowym forma- 
tem wymiany danych komputerowych, będącym podzbiorem JavaScript. Jego 
cechami jest prostota w czytaniu i pisaniu dla człowieka a zarazem łatwość w par- 
sowaniu i generowaniu dla komputera. 

Dane otrzymywane z portalu YouTube wymagały jednak przetwarzania pli- 
ków w powszechnie stosowanym formacie XML. Dostęp do danych w formacie 
JSON uważany jest za łatwiejszy i szybszy z poziomu języka JavaScript. Analiza 
składniowa takich danych jest również wygodniejsza dla programisty. Panuje opi- 
nia, iż format JSON jest bardziej naturalny niż XML, natomiast inni uważają, że 
jego skąpa notacja jest myląca. 

Dane w formacie JSON są zbudowane na dwóch strukturach: kolekcji par na- 
zwa/wartość, uporządkowanej liście wartości. Struktury typów w JSON: 


e obiekt - pary nazwa/wartość w nieokreślonej z góry kolejności, 

e tablica - uszeregowana kolekcja wartości, 

string - łańcuch znaków ograniczony podwójnymi nawiasami, 

e liczba - podobnie jak w języku C, 

e wartość - może przyjmować typy string, liczbę, obiekt, tablice, true, false oraz 
null. 


12.7. Podsumowanie 


Podczas korzystania z interfejsów programowych portali społecznościowy, 
najtrudniejszym etapem w procesie tworzenia oprogramowania korzystającego 
z danych serwisów jest proces autoryzacji. Po pokonaniu przeszkód z nim zwią- 
zanych i pomyślnym pobraniu pierwszych informacji z bazy wiedzy portalu, two- 
rzenie kolejnych zapytań jest stosunkowo proste, gdyż jest to czynione w spo- 
sób analogiczny. To sprawia, że dalszy rozwój takiej aplikacji poprzez dodawanie 
kolejnych funkcjonalności i przetwarzanie gromadzonej wiedzy następuje dość 
szybko. 
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ROZDZIAL 


TECHNOLOGIE AGENTOWE W 
WYSZUKIWANIU INFORMACJI 
W. Para, J. Lubiński 


13.1. Wstęp 


Technologie agentowe są zagadnieniem stosunkowo młodym. Powstały jako 
wyższy od obiektowego paradygmat programowania w związku z potrzebą roz- 
wiązywania różnorakich zagadnień w sposób rozproszony. Dzięki nim możliwym 
stało się podejmowanie kolektywnych działań, a więc rozwiązywanie problemów 
w sposób rozproszony, z czym nie mogły poradzić sobie programy działające na 
jednym komputerze. Mobilność i współpraca wielu agentów oraz inne cechy sys- 
temów agentowych powodują, że generowanie rozwiązań problemów wykazuje 
większą odpornością na błędy w stosunku do podejścia obiektowego. Dzięki za- 
stosowaniu agentów stało się możliwe wykonywanie działań w strukturach o du- 
żej niepewności co do zgodności i dokładności danych. Wreszcie, umożliwiło to 
przeprowadzanie z niespotykaną dotąd realnością symulacji układów, w których 
działa wiele niezależnych elementów, jak np. przy przewidywaniu mechanizmów 
giełdowych, animacjach komputerowych, tworzeniu filmowowych efektów spe- 
cjalnych (symulacja tłumu, animowanie tkanin). 

Podejście agentowe jest nie tyle lepsze od podejścia obiektowego, co stwarza 
możliwości leżące do tej pory poza zasięgiem programistów. W kolejnych podroz- 
działach przybliżono cechy technologii agentowych oraz omówiono potencjalne 
przypadki ich wykorzystania, ukazano narzędzia i metody, którymi można posłu- 
giwać się przy programowaniu agentowym, podpierając to przykładami. 


13.2. Podstawowy teoretyczne systemów agentowych 


13.2.1. Defincja agenta, cechy agenta, typy agentów 


Z powodu braku ogólnie obowiązujących standardów nie istnieje formalna 
defincja agenta. Nieformalnie jest to jednostka działająca w pewnym środowisku, 
zdolna do komunikowania się, monitorowania swego otoczenia i podejmowania 
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autonomicznych decyzji, aby osiągnąć cele określone podczas jej projektowania 
lub działania. Do podstawowe cech agenta zalicza się: 


e autonomiczność (podejmowanie samodzielnych decyzji), 

¢ komunikatywność (komunikacja z innymi agentami i użytkownikiem), 
e percepcja (postrzeganie i reagowanie na zmiany środowiska), 

e zdolność do wykorzystywania wiedzy, 

e tolerancyjność na błędy, złe wejścia, 

e zdolność do używania symboli i abstrakcji, 

e zdolność do adaptacji w celu osiągnięcia danego celu, 

e zdolność do uczenia się, 

e umiejętność do przeprowadzania operacji w czasie rzeczywistym, 
zdolność do komunikacji w języku naturalnym. 


Działanie agenta określane jako zachowanie jest planowane i przeprowadzane 
w oparciu o umiejętności w jakie został wyposażony na etapie projektowania i im- 
plementacji. Prowadzi ono do osiągnięcia celu, do którego agent dąży. W związku 
z tym istnieje wiele typów agentów. Wyróżnić można m.in. agentów: 


e poszukujących informacji, 

e zarządzających siecią, 

e wspomagających zarządzanie przedsiebiorstwem, 

e działających w ramach systemów ekspertowych, 

symulujących zachowania socjalne, 

e oraz agentów w rozumieniu sztucznej inteligencji, nie będących jednostkami 
programowymi. 


Agenci działają często jako centralne ośrodki przetwarzania wiedzy. Coraz 
częściej pojedynczy agent jest częścia większej całosci, elementem składowym 
tzw. systemu wieloagentowego. 


13.2.2. Systemy wieloagentowe 


Systemy wieloagentowe (ang. Multiagent Systems, MAS) stanowią alternatywę 
dla scentralizowanego modelu przetwarzania informacji. Wywodzą się z obszaru 
badań nad rozproszoną sztuczną inteligencją (ang. Distributed Artificial Intelli- 
gence, DAI). 

System wieloagentowy składa się z wielu agentów komunikujacych sie ze 
sobą przy jednoczesnym zachowaniu autonomii działania i podejmowania de- 
cyzji przez poszczególnych agentów. Agenci wykonują akcje w oparciu o wiedzę 
jaką dysponują: początkową oraz zgromadzoną w trakcie działania. Nową jako- 
ścią wprowadzoną przez MAS jest wzajemna interakcja między jednostkami pro- 
gramowymi, modyfikującymi swoją wiedzę i działania w oparciu o zachowania 
przejawiane przez innych agentów i informacje jakie otrzymują w procesie ko- 
munikacji z innymi jednostkami. 

Racjonalna jednostka wyposażona jest w strategię prowadzącą ją do osiągnię- 
cia założonego celu. Jako część systemu wieloagentowego może ona realizo- 
wać strategię współpracy z innymi jednostkami, jeśli przybliża to ją do osiągnię- 
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cia celu lub nawet być częścią grupy agentów realizujących określony cel. Sys- 
temy MAS umożliwiają lepsze i bardziej naturalne modelowanie wielu dziedzin 
charakteryzujących się: rozproszeniem, komunikacją i interakcjami elementów, 
współpracą, rywalizacją. 

Inną ważną cechą systemów wieloagentowych jest odporność na błędy i awa- 
rie. Systemy MAS stanowią jedną z najszybciej rozwijających się gałęzi badań nad 
sztuczną inteligencją, jednocześnie są wykorzystywane w konkretnych zastoso- 
waniach przemysłowych i biznesowych: 


e rozwiązywanie problemów, których natura ma charakter rozproszony — podej- 
ście agentowe ułatwia modelowanie systemów działających w środowisku roz- 
proszonym, mierzących się z problemami, których złożoność przekracza moż- 
liwości jednostki, 

e symulacje rzeczywistości — zwłaszcza grup składających się z autonomicznych 
jednostek, które znajdują zastosowanie w naukach biologicznych i społecz- 
nych, 

e zarządzanie wiedzą — wyszukiwanie, gromadzenie, analiza informacji znajdu- 
jących się w internecie, 

e eksploracja sieci — agenci mobilni, przemieszczajacy się w sieci i wykonujący 
zadania na rzecz użytkowników, agent może stanowić interfejs pomiędzy użyt- 
kownikiem a maszyną, 

e zagadnienia sterowania w robotyce — agenci reaktywni mogący wpływać na 
otoczenie w oparciu o impulsy z niego odbierane, 

e modelowanie oprogramowania — technologie agentowe wpływają na koncep- 
cje modelowania, dostarczając wysokopoziomowej abstrakcji jaką jest agent. 


13.3. FIPA jako standard w systemach agentowych. 


Powstała w 1996 r. organizacja FIPA (ang. Foundation for Intelligent Physical 
Agents) postawiła sobie za zadanie stworzenie standardów dla programowania 
agentowego [1]. Współpracując z firmami oraz uczelniami starała się wypraco- 
wać ogólnie obowiązujące zasady działania agentów i systemów agentowych, co 
zaowocowało powstaniem szeregu specyfikacji. Najpopularniejszymi z nich są 
Agent Managment oraz Agent Communication Language (FIPA-ACL). 


Struktura systemu agentowego FIPA 


W systemach agentowych FIPA agenty działają na tzw. platformie (ang. Agent 
Platform, AP). Zawiera ona (zobacz rys. system zarządzający agentem 
(ang. Agent Managment System), system transportujący wiadomości w ACL we- 
wnątrz platformy i pomiędzy platformami (ang. Message transport System), a 
także (opcjonalnie) system rejestracji usług (Directory Facilitator) możliwych do 
wykonania przez poszczególne agenty (Yellow Pages). Usługa Agent Managment 
System odpowiada za tworzenie i usuwanie agentów, decyduje o wstrzymywaniu 
ich pracy, przenoszeniu na inne platformy oraz przechowuje nazwy agentów i 
odpowiadające im identyfikatory (White Pages). 
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Agent platform 
Agent 
Management 
System 


Directory 
Facilitator 


Messsage Transport System 


Agent platform 


Messsage Transport System 


Rys. 13.1: Struktura systemu agentowego FIPA, za [1]. 


Dodatkowe usługi FIPA 


Standard FIPA zapewnia możliwość korzystania z dodatkowych, opcjonalnych 
usług. Są to m.in.: 


e integracja systemów agentowych, 

interfejsy użytkownika, 

e zarządzanie ontologiami, 

protokoły interakcji — wzorce podstawowych lub typowych działań, 
e usługi oparte na języku komunikacji ACL. 


Język ACL 


język ACL (ang. Agent Communication Language) jest wprowadzoną przez 
FIPA propozycją standardowego języka dla komunikacji agentów. Jest on oparty 
na teorii tzw. aktu mowy jako wypowiedzi języka naturalnego. Definiuje on spo- 
soby przekazu informacji agentów o wspólnej ontologii (część wiedzy agenta, 
opisująca nad jakimi zagadnieniami może on pracować oraz jakie zależności po- 
między nimi występują). 

ACL opisuje zagadnienie struktury wiadomości jakie mogą wysyłać i odbierać 
agenty. Składają się one z opisanego niżej zestawu parametrów: 


e performative — jedyny wymagany parametr wiadomości ACL. Określa typ 
aktu mowy, jakim jest dana wiadomość [2], 

e sender — nadawca; parametr standardowy choć nieobowiazkowy, 

e receiver — adresat w postaci niepustego zbioru nazw agentów; parametr stan- 
dardowy choć nieobowiązkowy, 
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e reply-to — adresat odpowiedzi na daną wiadomość, 

e content — treść wiadomości, do zinterpretowania przez agenta-adresata; para- 
metr standardowy choć nieobowiązkowy, 

e language — język, w którym zapisana jest treść wiadomości; parametr może zo- 
stać pominięty jeśli agent-adresat zna język treści danego systemu agentowego 
lub potrafi go zinterpretować, 

e encoding — precyzuje kodowanie treści wiadomości, 

e ontology — precyzuje ontologie do interpretacji treści wiadomości, 

e protocol — precyzuje protokół interakcji, w którym generowana jest wiado- 
mość ACL; parametr nieobowiązkowy choć zalecany. Wiadomość z niepustym 
parametrem protocol uważana jest za część konwersacji i musi mieć niepusty 
parametr conversation-id, jednakowy dla wszystkich wiadomości w danej kon- 
wersacji oraz niepusty parametr reply-by, 

e conversation-id — zawiera identyfikator, przypisujący wiadomość do kon- 
wersacji, 

e reply-with — parametr skierowany do agenta-adresata, który powinien zostać 
zamieszczony w polu in-reply-to w odpowiedzi na daną wiadomość, 

e in-reply-to — parametr w odpowiedzi na, zawierający wartość z pola 
reply-with z wiadomości, na którą bieżaca wiadomość stanowi odpowiedź, 

* reply-by — precyzuje czas, w którym agent wysyłający daną wiadomość życzy 
sobie otrzymać na nią odpowiedź. 


Poniżej zamieszczono przykładową wiadomość ACL: 


(inform 
:sender agentl 
:receiver hpl-auction-server 
:content (price (bid good02) 150) 
:in-reply-to round-4 
:reply-with bid04 
:language sl 
:ontology hpl-auction 


) 


Jak widać na przykładzie, parametr obowiązkowy performative jest okre- 
ślany na samym początku wiadomości (tu jego wartość to inform). 


Protokoły interakcji 


Współpraca i rywalizacja pomiędzy agentami jest kluczową cechą systemów 
wieloagentowych. Strategie interakcji między agentami formułowane są jako 
protokoły interakcji. Protokoły interakcji określają scenariusze wymiany komu- 
nikatów, budowę oraz wartości konkretnych pól komunikatu. Mogą one być im- 
plementowane przez programistę, można także wykorzystać implementacje do- 
stępne w specjalistycznych systemach, służących do tworzenia systemów wielo- 
agentowych. Do najważniejszych protokołów interakcji należą: 
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° FIPA-Query, FIPA-Request — proste protokoły pozwalające jednemu agentowi 
zgłaszać żądanie wykonania jakiejś akcji do innego agenta. Adresat żądania 
może wykonać akcję bądź odmówić jej wykonania, w każdym wypadku infor- 
mując agenta inicjatora o rezultacie swojej decyzji, wynikach wykonania żą- 
danej akcji. FIPA-Request umożliwia zlecenie wykonania akcji dopiero gdy 
zadane warunki wykonania będą spełnione, 

FIPA-Propose — zgodnie z tym protokołem agent składa ofertę wykonania ja- 
kiejś akcji innemu agentowi. Adresat propozycji może zrezygnować z oferty lub 
ją przyjąć, w takim wypadku następuje zazwyczaj dalsza komunikacja mająca 
na celu wykonanie proponowanej akcji, 

FIPA-Subscribe — protokół umożliwiający agentowi wysłanie żądania wyko- 
nywania akcji do innego agenta gdy stan określonego obiektu ulega zmianom. 
Agent adresat może odmówić subskrybowania usługi lub zgodzić się na nią, in- 
formując o swojej decyzji nadawcę komunikatu, natomiast agent wykonujący 
usługę informuje o wynikach wykonania i stanie referowanego obiektu agenta, 
który ją sybskrybował, 

FIPA-Contract-Net — bardziej złożony protokół, zazwyczaj angażujący w in- 
terakcję większą ilość agentów. Jeden agent inicjator, chcąc aby jakieś zadanie 
zostało wykonane, wysyła do jednego lub wielu agentów zapytanie o ofertę wy- 
konania zadania wraz z jego charakterystyką (call for Proposal). Poszczególni 
agenci składają swoje oferty przesyłając odpowiedź do inicjatora, który następ- 
nie wybiera najlepszą (lub kilka najlepszych) i zleca odpowiednim agentom wy- 
konanie zadania. 


13.4. Środowiska programowania agentowego 


W ciągu ostatnich lat stworzonych zostało dużo narzędzi oraz środowisk 
wspomagających projektowanie i tworzenie systemów agentowych. Wykazują 
one szereg cech, takich jak np. zgodność ze standardami FIPA, rodzaj licencji, 
na której oprogramowanie jest rozprowadzane, język programowania używany 
do tworzenia systemów agentowych i wiele innych. Dla przeprowadzenia testów 
opisanych w dalszej części rozdziału wybrano środowisko JADE [3]. 


13.4.1. JADE 


JADE (ang. Java Agent DEvelopment Framework) jest systemem oprogramo- 
wania, ułatwiającym tworzenie systemów agentowych i wieloagentowych (zo- 
bacz rys.[13.2). Oparty jest na licencji LGPL v.2. Umożliwia programowanie w ję- 
zyku Java i stąd działa w jakimkolwiek środowisku wspierającym tę platformę. Jest 
zgodny ze standardami FIPA. Składa się z trzech podstawowych części: 


e systemu czasu wykonania — środowiska, w którym „żyją” programy agentów 
(jade .Boot), 

¢ biblioteki klas, które są wykorzystywane do oprogramowannia podstawowych 
„funkcji życiowych” agentów, 
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e zestawu narzędzi (programów) umożliwiających monitorowanie i administro- 
wanie wszytkimi elementami infrastruktury JADE. 


JJ rma@192,168,1.6:1099/JADE - JADE Remote Agent Management GUI 
File Actions Tools Remote Platforms Help 
e Bge Pah ea BS Be 5 ws 
9 © AgentPlatforms name addresses 
9 E "192.168 1.6:1099/JADE" 
g= Main-Containe | 
© amsQ192.168.1.6 1099/JADE | 
© diQ192.168.1,6:10 E | 


99/JAD 
rma@192 168lLocalAgenth pe | 


Rys. 13.2: Interfejs JADE. 


Rodzaje agentów w JADE 


Jako elementy systemu czasu wykonania wyróznié mozna platformy i kon- 
tenery. Kontener jest działającą instancją środowiska, w którym działają agenci. 
Platforma jest natomiast zbiorem aktywnych instancji (uruchomionych na jed- 
nym komputerze lub na kilku komputrach połączonych siecią). Każda platforma 
zawiera przynajmniej jeden kontener, pierwszy z uruchomionych określany jest 
jako główny kontener (ang. main container). Posiada on zawsze dwóch specjal- 
nych agentów wynikających ze struktury systemu agentowego FIPA (rys.[13.1): 


e AMS (ang. Agent Management System) — realizuje usługi zarządzania regułami 
współżycia agentów na platformie, np. unikalnością nazw agentów, 

¢ DF (ang. Directory Facilitator) — dostarcza usługi katalogowe, agenci mogą re- 
jestrować swoje usługi u agenta DF aby udostępnić je innym agentom. 


JADE zawiera także innych specjalnych agentów ułatwiających tworzenie i debu- 
gowanie systemów agentowych. Są to: 


e RMA (ang. Remote Management Agent Gui) — graficzna konsola do zarządzania 
platformą i kontrolą cyklu życia agentów. Umożliwia m.in. tworzenie i likwida- 
cję obiektów agentów. Na jednej platformie może być wielu agentów RMA ale 
w danym kontenerze tylko jeden, 

e DummyAgent — narzędzie do monitorowania i debugowania. Możliwe jest two- 
rzenie i wysyłanie wiadomości do pozostałych agentów, 
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¢ The Sniffer -agent mający możliwość przechwycenia wiadomości jakie wymie- 
niają między sobą agenci i wyświetlenia jej użytkownikowi w formie podobnej 
do diagramu UML. Jest użyteczny przy odpluskwianiu społeczności agentów 
poprzez możliwość obserwacji komunikatów jakie wymieniają między sobą, 
Introspector — agent umożliwiający monitorowanie cyklu życia agenta, jego wy- 
mienianych wiadomości i wykonywanych zadań, 

SocketProxyAgent — prosty agent służący jako dwukierunkowa brama między 
platformą JADE a łączem TCP/IP 


Zachowania, klasy agentów w JADE 


Tworzenie agentów w środowisku JADE polega na rozszerzeniu specjalnej 
klasy jade.core.Agent i zaimplementowaniu metody setup () (wywoływanej 
po utworzeniu obiektu agenta) i takeDown () (wywoływanej po likwidacji obiektu 
agenta). Każdy agent jest osobnym wątkiem, na platformie identyfikowanym 
przez nazwę będącą ciągiem znaków, natomiast globalnie poprzez odpowiedni 
identyfikator: <nazwa_agenta>@<nazwa_platformy>. 

Zadania, jakie ma wykonywać agent, implementowane są w ramach jego za- 
chowań. Każde z nich przypisywane jest za pomocą metody addBehaviour () 
(powinna ona być wywoływana w metodzie setup ()). Biblioteki systemu JADE 
dostarczają klas modelujących charakterystyczne zachowania. Są to: 


e SimpleBehaviour — modeluje pojedyncze zachowanie; dziedziczy po klasie 

Behaviour, 

OneShotBehaviour — modeluje zachowanie, które może być wykonane tylko 

raz i nie może być blokowane, 

CyclicBehaviour — modeluje pojedyncze zdarzenie, które musi być wykony- 

wane zawsze, 

e CompositeBehaviour — modeluje zachowanie, które składa się z podzachowań 
definiujących aktualnie wykonywane operacje; jest to klasa bazowa dla klas 
modelujących złożone zachowania, 

e SequentialBehaviour — podklasa klasy CompositeBehaviour, która wykonuje 

swoje podzachowania sekwencyjnie, i kończy działanie, kiedy zakończyły się 

wszystkie podzachowania; ta klasa wykorzystywana jest, wtedy gdy złożone za- 

danie może być wyrażone sekwencją pojedynczych kroków, 

WakerBehaviour — klasa implementująca jednorazowo wykonywane zadanie 

po upłynięciu określonego czasu, 

e TickerBehaviour — klasa implementuje cykliczne zachowanie wykonywane 
okresowo, 

e FSMBehaviour — klasa wykonująca podzachowania zgodnie z przyjętym mo- 
delem skończonej maszyny stanów, zdefiniowanej przez użytkownika; podza- 
chowania reprezentują stany, użytkownik definiuje przejścia między nimi. 


Niektóre zachowania mogą być zarejestrowane jako stany końcowe. Zachowanie 
jako całość kończy się po osiągnięciu jednego z takich stanów. 

Ważną cechą platformy JADE jest możliwość porozumiwania się agentów 
między sobą. Agenci mogą wymieniać komunikaty zgodnie ze standardem ACL, 
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w sposób asynchroniczny. Każdy agent ma swoją kolejkę wiadomości, do której 
trafiają informacje do niego zaadresowane. Gdy przychodzi wiadomość, agent 
jest powiadamiany o tym fakcie. Standard ACL określa parametry opisujące 
wiadomość: nadawcę, odbiorcę, intencję komunikacyjną (performat ive), język 
w jakim wyrażona jest wiadomość, zawartość i szereg innych. Komunikat repre- 
zentowany jest jako obiekt klasy jade. lang.acl.ACLMessage. 


13.5. Przykład zastosowania MAS 


W celu zbadania możliwości zastosowania systemu agentowego w praktyce 
stworzono projekt systemu agentowego do wyszukiwania aukcji samochodów 
osobowych o zadanych przez użytkownika kryteriach na kilku portalach aukcyj- 
nych. Poniżej przedstawiono założenia oraz sposób realizacji tego projektu. 


13.5.1. Założenia 


System służyć ma wyszukiwaniu pojazdu według zadanych kryteriów. Wyszu- 
kiwanie realizowane ma być przez agentów, zaś rezultaty ich pracy powinny być 
zapisane do odpowiednich plików tekstowych. 

W systemie wyróżniono: agenta-asystenta oraz agentów-szperaczy, przeszu- 
kujących serwisy aukcyjne. Zadaniem agenta-asystenta jest komunikacja z użyt- 
kownikiem za pomocą graficznego interfejsu użytkownika. Interfejs umożli- 
wia zdefiniowanie takich parametrów wyszukiwania takich jak: serwis aukcyjny, 
który ma zostać przeszukany, marka samochodu, jego cena minimalna oraz mak- 
symalna. Po zdefiniowaniu kryteriów i zatwierdzeniu ich odpowiednim przyci- 
skiem agenci-szperacze rozpoczynają przeszukiwać serwisy aukcyjne na bazie 
przekazanych parametrów. Agent przeszukujący po zakończeniu pracy wysyła 
wiadomość do agenta-asystenta z informacją o tym fakcie. Po otrzymaniu takiej 
wiadomości agent-asystent daje znać użytkownikowi o zakończeniu pracy agenta 
poprzez wyświetlenie odpowiedniego okienka informacyjnego. 

System obsługuje trzy serwisy aukcyjne: Allegro.pl, Aukro.cz oraz Aukro.sk. Do 
każdego z tych systemów zostaje przydzielony jeden agent przeszukujący, stąd 
cały system tworzy czterech agentów. Użytkownik może,wybrać, które serwisy 
są przeszukiwane. W celu uniknięcia wystąpienia sytuacji, w której czas oczeki- 
wania na efekty pracy agentów przeciągnie się w nieskończoność, zostały nało- 
żone ograniczenia na czas odpowiedzi ze strony agentów przeszukujących oraz 
na ilość uzyskanych wyników. Po przekroczeniu jednej z wartości maksymalnych 
agent-asystent wysyła do pozostałych agentów komunikat nakazujący przerwa- 
nie pracy i zwrócenie dotychczas uzyskanych wyników. Należy przez to rozumieć 
wyodrębnienie z pozyskanych informacji tych, które spełniają wszystkie ograni- 
czenia i ich zapis do odpowiednich plików tekstowych. 


13.5.2. Narzędzia programistyczne 


W celu realizacji projektu skorzystano z systemu JADE, który ułatwia tworze- 
nie systemów agentowych. System ten ma otwarty charakter (do użytku nieko- 
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mercyjnego) i bogatą dokumentację z dużą liczbą przykładowych kodów źródło- 
wych. Dzięki tym cechom łatwo jest poznać samo środowiskiem oraz nauczyć się 
tworzyć własne rozwiązania. 

Ponieważ JADE jest systemem napisanym w języku Java, w trakcie pracy nad 
projektem skorzystano ze środowiska Netbeans. O jego wyborze zadecydowały 
przede wszystkim popularność, jaką się cieszy, oraz otwarty charakter. Istot- 
nym czynnikiem był też szeroki dostęp do różnych tutoriali, pokazujących ja- 
kie możliwości ma to środowisko i jak z nich skorzystać. Nie bez znaczenia był 
też fakt istnienia tutoriali, pokazujących jak zintegrować Netbeans z platformą 
JADE oraz jak stworzyć aplikację do komunikacji z serwerami portali aukcyjnych 
— WebServiceClient. Docelowa aplikacja została stworzona w środowisku Win- 
dows. 


13.5.3. Implementacja 
Metoda przeszukiwania serwisów 


Serwisy aukcyjne Aukro.cz i Aukro.sk, wraz z wieloma innymi serwisami za- 
granicznymi, są członkami Grupy Allegro. Serwisy te można przeszukiwać przy 
użyciu Allegro WebAPI — usługi sieciowej o znanym interfejsie, która umożli- 
wia wymianę informacji między zasobami serwisów internetowych Grupy Alle- 
gro a oprogramowaniem zewnętrznym [4]. Interfejs usługi jest opisany w języku 
definiowania usług sieciowych WSDL (ang. Web Services Description Language), 
komunikacja zaś odbywa się z pośrednictwem protokołu SOAP (ang. Simple Ob- 
ject Access Protocol) . 

Na początku działania aplikacji przy pomocy metody doLogin odbywa się lo- 
gowanie, przy czym uzyskiwany jest klucz sesji ważny 3 godziny [5]. Warto nad- 
mienić, że dla uniknięcia niepotrzebnego logowania przy wciąż ważnym kluczu 
sesji tworzony jest plik logowanie.txt, który przechowuje klucz sesji z poprzed- 
niego użycia programu oraz czas serwera, pozwalający sprawdzić, czy upłynęły 
od tej chwili trzy godziny. 

Następnie wywoływana jest funkcja doSearch, do której parametrów należą 
klucz sesji oraz odpowiednio skonstruowane zapytanie, zawierające szukany ciąg 
znaków, numer kategorii (odpowiadający marce samochodu), cenę minimalną 
i maksymalną, odpowiedni numer serwisu aukcyjnego oraz parametry, takie jak 
np. „tylko Kup Teraz”. 


Realizacja systemu agentowego 


W ramach systemu agentowego służącego do wyszukiwania aukcji samocho- 
dów osobowych wyróżniono dwa typy agentów: agent-asystent i agent-szperacz. 

Agent-asystent tworzony jest jako obiekt klasy AgentAsystent. Jego zada- 
niem jest komunikacja z użytkownikiem poprzez graficzny interfejs użytkownika, 
tworzenie agentów przeszukujących serwis aukcyjny Allegro oraz komunikacja 
z nimi. 

Agenci-szperacze są instancjami klasy AgentSzperacz. Oprócz poszukiwa- 
nia danej marki samochodu, wyświetlają parametry przeszukiwania zdefinio- 
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wane przez użytkownika oraz inicjują komunikację z agentem-asystentem. Ten, 
w zależności od dokonanego wyboru tworzy od 1 do 3 agentów przeszukujących. 
Każdy agent-szperacz po swoim stworzeniu wyświetla parametry wyszukiwania 
i zaczyna przeszukiwać serwis. Po zakończeniu przeszukiwania agent-szperacz 
szuka na platformie agenta-asystenta. Po jego odnalezieniu wysyła mu wiado- 
mość o treści „Koniec szukania”. Agent-asystent odpowiada wiadomością o treści 
„Koniec pracy”, po ktorej odebraniu agent-szperacz wywołuje metodę likwidu- 
jącą obiekt agenta. 

Rolą agenta-asystenta po wysłaniu poleceń wyszukiwania agentom przeszu- 
kującym jest cykliczne sprawdzanie, czy nie nadeszła wiadomość od jakiegoś 
agenta przeszukującego o treści „Koniec szukania”. Jeśli taka sytuacja miała miej- 
sce, to wysyłana jest wiadomość o treści „Koniec pracy”. Po jej otrzymaniu agent- 
szperacz wywołuje metodę, które likwiduje obiekt agenta. 

Po zlikwidowaniu wszystkich agentów-szperaczy można ponownie je urucho- 
mić naciskając przycisk „Zaczynaj”. Zamknięcie głównego okna aplikacji pocią- 
gnie za sobą likwidację agenta-asytenta. Agent wyrejestruje się, zamyka główne 
okno aplikacji, po czym kończy swój żywot. 


13.6. Podsumowanie 


Systemy agentowe dają niespotykane dotąd możliwości programistyczne. Są 
elastyczne, przenośne i w dużym stopniu odporne na błędy. Posiadają jednak 
także wady. Ponieważ powstały stosunkowo niedawno, nie istnieją pełne i ujed- 
nolicone standardy programowania, a istniejące platformy programistyczne we 
wszystkich najważniejszych językach programowania nie pozwalają na pełną in- 
tegrację systemów agentowych z innymi usługami (co znacznie może utrudnić 
realizację projektu MAS). Szybki rozwój tej dziedziny w połączeniu ze znacznymi 
możliwościami, jakie daje ona programistom, rokuje jednak nadzieje na możli- 
wość szybkiego, wygodnego i efektywnego programowania agentowego. 
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ROZDZIAL 


METODY OCENY RYZYKA 
S.Gospodarek, J. Urbanowicz 


14.1. Wstęp 


Termin ryzyko (risk) wywodzi się z języka włoskiego (wł. risico), w którym 
oznacza przede wszystkim przedsięwzięcie, którego wynik jest nieznany albo nie- 
pewny lub oznacza prawdopodobieństwo tego, że coś się uda lub nie [I] s. 9]. Ry- 
zykiem można nazwać również stan, w którym rezultat osiągnięty w przyszłości 
jest nieznany, ale można zidentyfikować jego przyszłe alternatywy, przy założe- 
niu, że szanse wystąpienia możliwych alternatyw są znane. Precyzyjna definicja 
ryzyka została podana w [2] s. 4]. 


Ryzyko — szansa jakiegoś wydarzenia, które będzie miało wpływ na realizację 
zamierzonego celu. 


Ocena ryzyka występuje w bardzo wielu dziedzinach życia. Przede wszystkim 
stosuje się ją w instytucjach finansowych takich jak banki, ubezpieczalnie oraz 
domy maklerskie, gdzie aplikacja ocenia ryzyko inwestycji, pomaga podjąć decy- 
zję o manipulacji kapitałem bądź też umożliwia rozumienie efektywności danego 
przedsięwzięcia uwarunkowanego probabilistyczne. Często ryzyko zależy od bar- 
dzo wielu czynników i nie ma możliwości obserwacji ich wszystkich, co gorsza, za 
każdym razem badane czynniki mogą mieć inny wpływ lub też sama ilość zjawisk 
składających się na ryzyko może się zmieniać. 

Mimo licznych problemów zarządza się ryzykiem. Celem zarządzania ryzy- 
kiem jest jego minimalizacja oraz zabezpieczenie przed następstwami badanego 
zjawiska. Chcąc sprawnie zarządzać ryzykiem i np. minimalizować prawdopodo- 
bieństwo poniesienia strat, potrzebny jest aparat matematyczny do jego oceny. 

Model zarządzania ryzykiem podany w [3] s. 4] składa się z następujących eta- 
pów: identyfikacji, oceny, planowania, monitorowania, sterowania, komunikacji. 

Na etapie identyfikacji znajduje się rodzaje ryzyka jakie mogą wystąpić w roz- 
ważanej sytuacji. Na etapie oceny określa się poziom ryzyka korzystając z róż- 
nych metod. Dzięki temu etapowi można dokonać gradacji czynników wpływa- 
jących na rozważany problem, zwracając uwagę na czynniki bardziej istotne. Ste- 
rowanie to etap, w którym dokonuje się działań mających na celu ograniczenie 


14.2. Polskie normy 


ryzyka do dopuszczalnych rozmiarów lub ochronę przed następstwem rozwaza- 
nej sytuacji. Monitorowanie ma na celu badanie efektywności działań podejmo- 
wanych na etapie sterowania. 


14.2. Polskie normy 


Ryzyko jest ogólnym pojęciem i w zależności od dziedziny, branży czy też sy- 
tuacji ma inny wydźwięk. Z tego też powodu w większości przypadków nie da 
się wyznaczyć dokładnych norm, metod lub reguł określających poziom, zakres 
i inne cechy ryzyka. Często sposoby określania ryzyka są informacją zastrzeżoną 
i o dużej wartości, jak ma to miejsce przy ocenie ryzyka inwestycji w bankach czy 
też biurach maklerskich. W polskich normach [6] można spotkać wyłącz- 
nie zalecenia dotyczące oceny ryzyka zawodowego i sposobów jego zmniejsza- 
nia. Jednak i tu, ze względu na mnogość różnych przypadków, norma jest raczej 
ogólna oraz prezentuje sposób podejścia do problemu, a nie dokładny przepis. 


14.2.1. Ocena ryzyka 


Polskie prawo nakazuje ocenę ryzyka zawodowego. Pracodawca bądź też pra- 
cownik BHP jest odpowiedzialny za prawidłową ocenę ryzyka jak i ewentualną 
pracę nad jego zmniejszaniem. Ocena powinna być przeprowadzona w możliwie 
najprostszy sposób oraz wskazane jest, aby identyfikacja zagrożeń była oparta na 
zasadzie zdrowego rozsądku. Po dokonanej analizie ocena pozwoli określić czy 
ryzyko pracy jest dopuszczalne czy niedopuszczalne. Można przyjąć, że ryzyko 
jest dopuszczalne tylko jeśli zastosowane środki chroniące pracownika przed od- 
działywaniem czynników niekorzystnych są wystarczające, w przeciwnym wy- 
padku ryzyko jest niedopuszczalne i nie można prowadzić pracy. 


14.2.2. Metody oceny ryzyka 


Polskie normy podają kilka metod, które pomagają w ocenie ryzyka. Metody 
na podstawie prawdopodobieństwa oraz skutków wystąpienia wypadku (określe- 
nie negatywnych następstw zdarzenia — w podejściu humanitarnym: urazu czy 
też śmierci, w podejściu materialnym: strat finansowych; określenie może doty- 
czyć pracownika, pracowników bądź społeczeństwa) wyznaczają poziom ryzyka. 
Głównie są to tabele, w kolumnach i wierszach których przyrostowo wypisano 
prawdopodobieństwo oraz zakres czy też skutki wypadku. 


Metoda oceny trójstopniowej i pięciostopniowej 


Metoda ta jest raczej przedstawieniem działania kolejnych bardziej szczegó- 
łowych metod opisanych w dalszej części. Określa się w niej prawdopodobień- 
stwo i wagę następstw wypadków i na ich podstawie odczytuje się wartość ryzyka 
z tab. Jeśli znany jest poziom ryzyka, można odczytać niezbędne działania 
Z o to czy ryzyko jest dopuszczalne czy tez nie. Wszystko opiera sie 
zatem na zdrowym rozsądku i wymagane jest doświadczenie oraz dokładna zna- 
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jomość badanego problemu, w innym przypadku ocena moze być bezuzyteczna 
lub co gorsze może wpłynąć na bezpieczeństwo. 


Tab. 14.1: Poziomy ryzyka dla skali trzystopniowej i pięciostopniowej. 


Ciężkość następstw zagrożeń 


Prawdopodobieństwo 
wystąpienia 
możliwych zagrożeń 


Prawdopodobieństwo 
wystąpienia 
możliwych zagrożeń 


Dla skali trójstopniowej występują następujące poziomy ryzyka: małe, średnie 
i duże. Skala pięciostopniowa jest dodatkowo rozszerzona o poziomy bardzo ma- 
łego i bardzo dużego ryzyka, pozwala to na wyznaczenie dodatkowych poziomów 
iszerszy opis. Trzeba jednak pamiętać, że szersza skala wymaga lepszej znajomo- 
ści problemu. Przykład pozwoli lepiej zrozumieć opisane zagadnienie: 


Stanowisko pracy: 

- kierowca samochodu dostawczego, dla zagrożenia wypadkiem komunikacyjnym. 
Ciężkość następstw: 

- duża (ewentualność ciężkich dolegliwości, a nawet śmierci) 

Prawdopodobieństwo: 

- małe (firma nie odnotowała wypadków komunikacyjnych przez ponad 20 lat, obsługuje 
głównie sklepy osiedlowe w mieście do 20 tys. mieszkańców) 

Oznacza to ryzyko zawodowe na poziomie średnim, czyli dopuszczalne lecz wymagające 
planowania i realizacji działań ukierunkowanych na jego zmniejszenie. 


Metoda wstępnej analizy zagrożeń 


Metoda wstępnej analizy zagrożeń pozwala na jakościowe oszacowanie ry- 
zyka. Posiadając dane statystyczne oraz wykorzystując własne spostrzeżenia 
można łatwo wartościować ryzyko. Tak jak w przypadku poprzedniej ogólnej me- 
tody ocena zależy od dwóch parametrów: 


e S - wielkości (stopnia) ewentualnej szkody, 
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Tab. 14.2: Wykaz działań w zależności od ryzyka. 


Poziom ryzyka Wartościowanie ryzyka Niezbędne działania 


e P- prawdopodobieństwa powstania takiej szkody. 


Parametr wielkość szkody (S) przyjmuje wartości 1 - 6 według następującego ze- 
stawienia: 


. niewielka, znikome urazy, szkody nieznaczne, 

. lekkie obrażenia, szkody wymierne, 

. ciężkie obrażenia, szkody znaczne, 

. wypadek śmiertelny jednej osoby, szkody ciężkie, 

. wypadek śmiertelny zbiorowy, bardzo ciężkie szkody na terenie przedsiębior- 
stwa, 

6. wypadek śmiertelny zbiorowy, bardzo ciężkie szkody poza terenem przedsię- 

biorstwa. 


O eA WN FE 


Prawdopodobieństwo powstania szkody (P) przyjmuje wartości 1 - 6 według na- 
stepujacego zestawienia: 


. nieprawdopodobne, 

. mało prawdopodobne, szkoda powstaje raz na 10 lat, 

. szkoda może się wydarzyć raz w roku, 

. dosyć częste, szkoda może się wydarzyć raz w miesiącu, 
. częste, szkoda może się wydarzyć raz na tydzień, 

. bardzo prawdopodobne. 


DODOTRWD FH 


Po oszacowaniu parametrów S i P ryzyko jest określane (wartościowane) na 
trzech poziomach według tab. 


od 1 do 3 - akceptowalne, 
od 4 do 9 - dopuszczalna akceptowalność ryzyka po przeprowadzeniu oceny, 
powyżej 10 — ryzyko niedopuszczalne. 


W zależności od wartości powinno się podjąć odpowiednie działania. Widać 
też ile trzeba zmienić by osiągnięty został lepszy poziom bezpieczeństwa. Zobra- 
zuje to poniższy przykład: 
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Tab. 14.3: Wartościowanie ryzyka w metodzie wstępnej analizy zagrożeń. 


Prawdopodobieństwo powstania szkody (P) 
1 2 3 4 5 6 


Wielkość 
szkody (S) 


o u FP WN PR 


Stanowisko pracy: bibliotekarz, dla zagrozenia uderzeniem przez spadajace przedmioty: 

- wielkość szkody S = 2 (lekkie obrażenia) 

- prawdopodobieństwo szkody P = 3 (może zdarzyć się raz w roku, w bibliotece panuje po- 
rządek) 

Oznacza to ryzyko na poziomie 6, czyli dopuszczalna jest akceptacja ryzyka po przepro- 
wadzeniu oceny. 


Metoda wskaźnika ryzyka 


Metoda ta jest najbardziej rozbudowana z wszystkich przedstawionych, bierze 
się w niej pod uwagę trzy parametry: 


S - możliwych skutków (następstw) zagrożenia, 
E - ekspozycji (narażenia) na zagrożenie, 
P - prawdopodobieństwa wystąpienia zdarzenia. 


Zgodnie z tą metodą poziom ryzyka określa się jako iloczyn parametrów. Tak jak 
wcześniej istnieją w normach tabele, które pokazują jakie wartości mają poszcze- 
gólne parametry oraz jak zinterpretować wynik. Przykład użycia metody: 


Stanowisko pracy: murarz-tynkarz, dla zagrożenia upadkiem na niższy poziom (np. pod- 
czas prac na rusztowaniach lub podnośnikach): 

- możliwe skutki zagrożenia S = 15 (bardzo duże, jedna ofiara śmiertelna) 

- ekspozycja (narażenie) na zagrożenie E = 6 (częsta - codzienna) 

- prawdopodobieństwo wystąpienia zdarzenia P = 0,5 (zdarzenie sporadycznie możliwe, 
na budowie przestrzega się przepisów) 

Oznacza to ryzyko na poziomie 45 (15 - 6 - 0,5), czyli małe, przy czym potrzebne jest kon- 
trolowanie tego zagrożenia. 


14.3. Bezpieczeństwo na drodze 


Jednym z głównych celów producentów samochodów jest zapewnienie jak 
największej ochrony podczas wypadku, czyli nic innego jak zmniejszanie ryzyka 
utraty zdrowia czy też życia. Jest to jednak operowanie wskaźnikiem wielkości 
szkody. Chcąc jeszcze bardziej podnieść poziom bezpieczeństwa można zmniej- 
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szyć prawdopodobienstwo wystąpienia wypadku. Problem tego typu można roz- 
wiązać poprzez umożliwienie sprawdzenia przez kierowcę, która z dróg pomię- 
dzy miejscem startu, a celem cechuje się najmniejszą ilością wypadków — naj- 
mniejszym prawdopodobieństwem wystąpienia wypadku. 


14.3.1. Identyfikacja problemu 


Z danych statystycznych oraz raportów policyjnych można wyznaczyć 
kilka podstawowych czynników wpływających na prawdopodobieństwo wystą- 
pienia wypadku drogowego. Dodatkowo można stwierdzić, który z tych czynni- 
ków ma największy wpływ. Kolejno są to: 


czynnik ludzki właśnie głównie z winy człowieka dochodzi do większości wypad- 
ków, czynnik ten nie jest jednak brany pod uwagę ponieważ nie- 
stety w wypadku zazwyczaj bierze udział jeden „spokojny” kie- 
rowca i jeden „brawurowy”, 
stan dróg jest to kolejny z czynników, jazda po autostradzie czy drodze 
z wydzielonymi pasami mijania znacznie zmniejsza ryzyko wy- 
padku, natomiast ruchliwe nieprzystosowane drogi o zniszczonej 
nawierzchni sprzyjają wypadkom, 
pogoda ostre słońce, deszcz, śnieg i inne czynniki pogodowe mają duży 
wpływ na bezpieczeństwo, 
trasa długość trasy wpływa na prawdopodobieństwo wystąpienia wy- 
padku, często dłuższa trasa po lepszych drogach będzie bezpiecz- 
niejsza, 
biomet ogólny stan pogody może wpływać na nasze samopoczucie i kon- 
centrację czyli pośrednio na bezpieczeństwo. 


Dane o bezpieczeństwie dróg 


Dane dotyczące bezpieczeństwa dróg i ilości wypadków oraz ich rodzaju są 
dostępne w Atlasie ryzyka na drogach w Polsce [8]. Przykładowa mapa, obrazu- 
jąca bezpieczeństwo na drogach pod względem wszystkich możliwych wypad- 
ków iich skutków, wygląda bardzo źle (rys.[14.1) - ilość „czarnych” odcinków jest 
znaczna. Na mapie uwzględniono, między innymi, wypadki takie jak: zderzenia 
czołowe, zderzenia boczne, wypadnięcie z drogi i najechanie pieszego. 


Dane pogodowe 


Dane pogodowe są dostępne w wielu miejscach w Internecie. Przy wyzna- 
czaniu bezpieczeństwa brane są pod uwagę takie elementy jak opady deszczu 
i śniegu czy też mgła na trasie. Oczywiście zależnie od trasy warunki pogodowe 
mogą być inne i inaczej mogą wpływać na bezpieczeństwo. Wymienione ele- 
menty pokazano na przykładowych mapach pogodowych (rys.[14.2). 
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Mapa 14.1: Ogólna mapa bezpieczeństwa na drogach w Polsce, dane z lat 2007- 
2009. 


Dane o trasie 


Wpływ na bezpieczeństwo ma również długość trasy. Można jechać dłuższą 
trasą, ale mimo to bẹdzie ona bezpieczniejsza. Oczywiście czasem jazda dłuższą 
i nieco bezpieczniejszą może wcale nie być lepsza ze względu na ilość dodatko- 
wych kilometrów do pokonania. 

Do wyznaczania trasy pomiędzy punktami można wykorzystać internetową 
Mape Google. Jest to wygodne narzędzie, które posiada wiele ciekawych funkcji. 
Istnieje możliwość pisania aplikacji i umieszczania ich na dowolnym serwerze 


(rys.[14.3). 


Aplikacja Google Maps posiada bardzo wiele możliwości, m.in.: 


e powiększenie/pomniejszenie interesującego fragmentu mapy, 

e zmianę widoku mapa/satelita/hybrydowy/teren, 

e dodanie mapy statycznej lub dynamicznej (z możliwością zmiany widoku), 
e dodawanie linii i znaczników, 

e wyświetlanie informacji na mapie, 

możliwość geokodowania adresów, 

e wyznaczanie tras przejazdów, 

możliwość podglądu wybranych miejsc z poziomu ulicy (Street View), 
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Mapa 14.2: Przykładowe mapy pogodowe — serwis instytutu ICM. 


e możliwość wyszukania żądanego połączenia komunikacji miejskiej w wybra- 
nych miastach (Google Transit), 
+ optymalizację pod względem działania na urządzeniach przenośnych. 


14.3.2. Ocena bezpieczeństwa na drodze 


W podrozdziale wspomniano, że normy pozwalają ogólnie określić 
poziom ryzyka i to raczej w sposób opisowy niż matematyczny. Dodatkowo 
normy pokazują, że są dwa podstawowe kryteria przy ocenie ryzyka: ciężkość wy- 
padku oraz prawdopodobieństwo, z jakim ten wypadek może wystąpić (podroz- 
dział|14.2.2). Problem oceny ryzyka na drodze nie polega na dokładnym określe- 
niu poziomu bezpieczeństwa na danej trasie, ale raczej stwierdzeniu, która z tras 
jest najbezpieczniejsza. Obierając odpowiednie współczynniki - ich ilość i war- 
tość - można, podobnie jak w normach, analizować ryzyko. 
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Rys. 14.3: Wygląd okna w usłudze Google Maps. 


Bezpieczeństwo na wybranej przez użytkownika trasie może być wyznaczane 
na podstawie aktualnych, historycznych lub też statystycznych danych. Przy 
określeniu ryzyka brane pod uwagę powinny być wcześniej wymienione czyn- 
niki wpływające na bezpieczeństwo (dane pogodowe) z odpowiednią wagą. Wy- 
znaczony poziom ryzyka na najkrótszej trasie może być porównywany z innymi 
dłuższymi trasami (dane o trasie). W ten sposób może zostać wyznaczona naj- 
bezpieczniejsza trasa. Takie rozwiązanie pozwala nie podawać wartości ryzyka, 
która nie odniesiona do niczego, nie stanowi żadnej informacji. W końcu wybiera 
się najbezpieczniejszą trasę, a nie zastanawia nad tym tym czy w ogóle jechać. 


14.4. Strona internetowa — ocena bezpieczeństwa trasy 


Jednym ze sposobów na udostępnienie kierowcom możliwości sprawdzenia 
bezpieczeństwa tras byłoby stworzenie dedykowanej do tego zadania aplikacji 
webowej. Zadaniem tej aplikacji, oprócz wyznaczania trasy pomiędzy punktami, 
byłoby sprawdzenie, która z zaproponowanych tras jest obarczona najmniejszym 
ryzykiem wystąpienia wypadku. W dalszej części rozdziału opisano testową im- 
plementację takiej aplikacji. 


14.4.1. Obliczanie bezpieczeństwa trasy 
Do oceny poziomu bezpieczeństwa zastosowano funkcję wagową pozwala- 


jącą porównywać trays między sobą i najlepiej odzwierciedlają sytuację na pol- 
skich drogach. 


1 
Bi (Xii, Xi, X3i, Xąj, X5i, Xi) = m (X1b1 + x2; bo + x3¡b3 + x4ib4 + xgibs) (14.1) 
l 
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gdzie: B; to bezpieczeństwo analizowanej trasy, x;...x5; to długość trasy o pozio- 
mie bezpieczeństwa od 1 - bezpieczna do 5 - niebezpieczna, x; to długość całej 
trasy, b)...b5 to współczynnik bezpieczeństwa z przedziału 0-1, i to numer bada- 
nej trasy. Najbezpieczniejsza trasa to ta, dla której wartość wyznaczona ze wzoru 


jest najmniejsza. 


Wyznaczanie wartości współczynników bezpieczeństwa 


Współczynniki bezpieczeństwa [by...bs] we wzorze [14.1| trzeba dobrać zdro- 
worozsądkowo i doświadczalnie. Jest to trudne ze względu na fakt, iż powinna 
być zachowana równowaga pomiędzy długością trasy, a jej bezpieczeństwem. Na 
rys.[14.4|przedstawiono sytuację, w której współczynniki zostały dobrane liniowo. 
Czyli kolejne poziomy bezpieczeństwa są liniowo zwiększane o tę samą wartość. 
Widać jednak, iż tylko niewielki procent tras jest wyróżnionych jako bezpieczne, 
a podczas testów praktycznie zawsze wybierana była trasa krótsza. 


(OKK) 30% 


Low 0,2 
Low-medium 0,4 
Medium 0,6 
x Medium-high 0,8 
High 1,0 

Trasy do: 
0,2 1% 
0,6 % 
0,8 16% 
17% 
27% 

3 5 


Rys. 14.4: Dobór parametrów - liniowy 


Kolejny z podziatów zostat przedstawiony na rys. Jednak i w tym przy- 
padku nie osiągnieto zadowalających wyników - trasy bezpieczniejsze nadal nie 
odgrywały zbyt dużej roli. Jak widać, poziom dróg o najmniejszym bezpieczeń- 
stwie jest stale na poziomie 30%. 

Dopiero po wielu próbach udało się ustalić odpowiednie współczynniki funk- 


cji wagowej (rys.[14.6). 
14.4.2. Budowa strony internetowej 


Podstawowym zadaniem strony internetowej jest zaproponowanie użytkow- 
nikowi kilku wariantów trasy, wizualizacja proponowanych tras na mapie, poda- 
nie informacji o długości trasy oraz najważniejsze — ocena poziomu bezpieczeń- 
stwa każdej z tras. Ocena ta jest wyliczana na podstawie takich czynników jak: 
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Rys. 14.5: Dobór parametrów - zmniejszone wagi tras bezpiecznych. 


Low 0,0 
Low-medium 0,1 
Medium 0,2 
Medium-high 0,6 
High 1,0 
Trasy do: 

0,2 8% 

0,6 16% 

17% 

20% 

% 


rowno 1,0 30% 


Rys. 14.6: Dobór parametrów - wybrane parametry. 


e długość trasy — niebezpieczeństwo związane ze zmęczeniem kierującego po- 
jazdem i ilość kilometrów do pokonania, 

e stopień bezpieczeństwa drogi wyznaczony na podstawie statystyk — niebezpie- 
czeństwo związane z przebiegiem danej drogi. 

Użytkownik na podstawie informacji pochodzących ze strony może zwiększyć 

bezpieczeństwo swoje oraz pasażerów wybierając odpowiednią trasę. Zapropo- 

nowana aplikacja z założenia ma być narzędziem pomagającym kierowcy doko- 

nać najlepszego wyboru, a nie podjąć decyzję za niego. 
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Rys. 14.7: Widok strony. 


Dodanie mapy na strone internetowa 


Dodanie mapy na własną stronę internetową jest prostym zadaniem. Wystar- 


czającą umiejętnością jest podstawowa znajomość języka JavaScript oraz HTML. 
Chcąc umieścić mapę na własnej stronie należy wykonać trzy kroki 


dołączyć skrypt API w nagłówku strony 


<script src="http://maps.google.com/maps/api/js?sensor=false"\ 
type="text/javascript"></script> 


wstawić obiekt w którym będzie wyświetlana mapa w ciele strony 


<div id="mapka" style="width: 700px; height: 500px;\ 
border: lpx solid black; background: gray;"> 

<!-- tu bedzie mapa --> 

</div> 


zainicjować mapę w skrypcie JavaScript 


<script type='text/javascript' > 
function mapaStart () 
{ 
var wspolrzedne = 
var opcjeMapy = { 
zoom: 15, 
center: wspolrzedne, 


new google.maps.LatLng(10.541366,19.560615) ; 
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mapTypeld: google.maps.MapTypeld.SATELITTE 
Y; 
var mapa = new google.maps.Map (document .getElementBylId ("mapka"), \ 
opcjeMapy) ; 
) 


</script> 


W powyższym skrypcie zdefiniowano współrzędne geograficzne na jakich mapa 
będzie wyśrodkowana, zbliżenie określonego punktu oraz typ mapy. W końcowej 
części skryptu pożądana mapa została zainicjowana. 

Jak widać dodanie prostej mapy nie jest skomplikowanym zadaniem. Mapy 
Google dają ogromne możliwości programiście, szczegółowa dokumentacja do- 
starczanych przez nie opcji jest opublikowana na stronie projektu [9]. 

Jedną z opcji jest wyznaczanie tras pomiędzy dwoma miejscami, które 
zostaną wprowadzone przez użytkownika. Taką możliwość daje klasa 
google.maps.DirectionsService metodą route (). 


route (request :DirectionsRequest, 
callback: function (DirectionsResult, DirectionsStatus))) 


Metoda route () pozwala znaleźć interesującą trasę. Przyjmuje ona jako jeden 
z argumentów obiekt typu Direct ionsRequest w którym podaje się parametry 
wyszukiwanej trasy, m.in.: 


e punkt startu, 

e punkt docelowy, 

+ punkty pośrednie (współrzędne geograficzne lub adres miejsca, maks. 8), 
e podanie alternatywnych tras, 

e unikanie autostrad, 

e unikanie płatnych odcinków dróg, 

e typ poruszania (samochodem, rowerem, pieszo), 


Jeśli z pewnego względu trasa nie zostanie znaleziona, metoda zwraca powód 
braku rozwiązania, który można przedstawić użytkownikowi. Jeżeli ustawiona 
zostanie opcja wyszukiwania alternatywnych tras, trasy te zostaną zwrócone 
w tablicy obiektów typu DirectionsRoute. W przeciwnym wypadku tablica 
ta będzie miała tylko jeden obiekt z informacją dotyczącą danej trasy, a w tym 
m.in.: 


e współrzędne prostokąta ograniczającego trasę, 
e długość, 

e czas trwania, 

¢ kroki pośrednie na trasie. 


Po uzyskaniu alternatywy tras kolejnym etapem jest wyznaczenie poziomu 
bezpieczeństwa każdej trasy. Numery dróg wraz z dystansem do pokonania na 
każdej drodze można uzyskać także dzięki usłudze Google Maps API. Udostępnia 
ona informacje o każdej zmianie kierunku jazdy na pokonywanej trasie. Trasa 
uzyskana z metody route () jest podzielona na pojedyncze odcinki dróg, zwane 
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krokami. Każdy krok to dystans pomiędzy kolejnymi zmianami kierunku jazdy 
lub zmianami nazwy drogi. Do każdego kroku dołączona jest informacja po- 
dobna do tych używanych w systemach nawigacyjnych, bazujących na odbior- 
nikach GPS, np.: 


e Skręć w lewo w Pilczycka. 

+ Kontynuuj wzdłuż Główna. 

e Na rondzie zjazd nr 2 w Wojska Polskiego. 
+ Kontynuuj wzdłuż Trasa 336. 

e Kontynuuj wzdłuż S11. 


Jeżeli trasa wiedzie np. drogą krajową lub autostradą, jej numer jest podawany w 
polu informacyjnym dotyczącym danego kroku. Parsując powyższą informację 
można ustalić numer drogi, aby następnie odnaleźć ją w bazie danych zawierają- 
cej numery dróg wraz z informacją o ich bezpieczeństwie. Jeżeli dany odcinek nie 
wiedzie przez drogę znajdującą się w bazie, przyjmuje się dla niego domyślny po- 
ziom bezpieczeństwa. Obliczony wynik dla każdej z zaproponowanych tras jest 
wizualizowany za pomocą jej koloru odpowiedniego dla danego poziomu bez- 
pieczeństwa. Ponadto wynik liczbowy dla każdej z tras jest prezentowany w prze- 
znaczonym dla tego polu tekstowym. 


14.4.3. Format danych 


Znalezione dane dotyczące bezpieczeństwa na drogach zamieszczane są 
w pliku XML. Jego strukturę przedstawiono na rysunku Dane te są wczy- 


Rys. 14.8: Struktura pliku xml zawierającego poziomy bezpieczeństwa dróg. 


tywane na stronie z wykorzystaniem języka JavaScript i obiektów typu DOM 
XML. To narzędzie daje możliwość obiektowego traktowania wczytanych danych. 
Samo drzewo utworzone w pliku xml oraz każdy z liści tego drzewa można trak- 
tować jako jako osobny obiekt. Mechanizm ten bardzo ułatwia pracę z danymi 
zapisanymi w formacie xml, co więcej, istnieje możliwość łatwego przeszukiwa- 
nia wczytanej struktury danych. 
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.5. Podsumowanie 


Można zauważyć, że ryzyko jest trudne do badania i opisu, często nie można 


powiedzieć nawet czy wynik, który poda algorytm jest poprawny. Nieosiągalne 
jest oczywiście stwierdzenie, że algorytm daje optymalne wyniki. 


Stworzona strona internetowa pozwala sprawdzić, która trasa z wyznaczo- 


nych jest najbezpieczniejsza. Może się to przydać każdemu kierowcy, zwłaszcza 
w Polsce, gdzie problem wypadków drogowych jest ogromny. 
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ROZDZIAL 


KOMPUTEROWE WSPARCIE KONTROLI 
JAKOSCI 
P Bolek, D. Paszuk 


Systemy ekspertowej są systemami informatycznymi, które na podstawie po- 
siadanej bazy wiedzy są w stanie rozwiązać postawiony przed nimi problem de- 
cyzyjny. Systemy ekspertowe znajdują szerokie zastosowanie nie tylko w przemy- 
śle w działach kontroli jakości, ale także w medycynie (przy diagnozie chorób), 
ekonomii (do różnego rodzaju analizy), przy diagnozowaniu problemów tech- 
nicznych oraz wielu innych. Systemy te cechuje szeroka dostępność, w przeci- 
wieństwie do wykwalifikowanych pracowników. Mogą one pracować 24h/dobę, 
nie nużąc się monotonnym zajęciem, w związku z czym nie popełniają przypad- 
kowych błędów. Nie są też subiektywne, ocenę podejmują zawsze według tych 
samych reguł zapisanych w bazie wiedzy. 

Jednym ze sposobów budowania baz wiedzy wykorzystywanych w systemach 
ekspertowych jest posłużenie się metodą drzew decyzyjnych. Metoda ta został 
wykorzystana do budowy systemu ekspertowego dla sortowni owoców, co zostało 
opisane w niniejszym rozdziale 


15.1. Zagadnienia teoretyczne 


15.1.1. Drzewa decyzyjne 


Analizując pewien problem należy zdać sobie sprawę z różnych dróg jego roz- 
wiązania. Przykładem może tutaj być wybór „Czy rozwiązać zadanie domowe 
samemu, czy je przepisać w szkole”. Jak wiadomo każda droga prowadzi do jakie- 
goś określonego celu i posiada jakieś plusy i minusy. Przedstawioną formę analizy 
problemu można w uproszczeniu nazwać drzewem decyzyjnym. 

Obecnie drzewa decyzyjne głównie są wykorzystywane do indukcyjnego ucze- 
nia się maszyn. Spowodowane jest to faktem prostej programowej implementacji 
(instrukcje warunkowe typu if-then), dużej efektywności oraz łatwej interpretacji 
(łatwo stworzyć reguły kwalifikacyjne). Budowa drzewa decyzyjnego opiera się 
na analizie szeregu przykładów, z których każdy musi być opisany zestawem atry- 
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butów. Każdy atrybut może przyjmować różne wartości. Drzewa decyzyjne po- 
zwalają, aby wartości były dyskretne oraz ciągłe, jednak w tym drugim przypadku 
należy dokonać dyskretyzacji na kilka przedziałów. Co ciekawe, ciąg przykładów 
może zawierać błędy, a nawet braki w wartościowaniu atrybutów. 

Drzewo decyzyjne, formalnie rzecz biorąc, jest grafem, a dokładniej drzewem. 
Korzeniem tego drzewa jest atrybut bądź cecha wybrana na podstawie odpowied- 
niego kryterium, natomiast poszczególne gałęzie reprezentują wartości tego atry- 
butu. Węzłom drzewa na kolejnych poziomach przyporządkowane są kolejne 
atrybuty, natomiast węzły na najniższym poziomie reprezentują poszczególne 
klasy, czyli decyzje. Budowa drzewa decyzyjnego oparta jest o kryterium stopu, 
kryterium wyboru atrybutów oraz o przycinanie drzewa. W zależności od wybra- 
nego algorytmu budowy drzewa te trzy elementy mogą się różnić. Przykładowe 
drzewo decyzyjne do problemu „Czy rozwiązać zadanie domowe samemu, czy je 
przepisać w szkole” może mieć postać jak na rys.[15.1] 


Dostępny czas > 1h 


Tak 
Czy zagrożony z 
tego przedmiotu 


Nie 


Spisać w szkole 


Tak Nie 
której zawsze spisuje 
e Tak 


Ni 


Czy chcę się = kol 


Tak Nie 


Rys. 15.1: Przykładowe drzewo decyzyjne. 


Zalety i wady drzew decyzyjnych są następujące: 
e Zalety drzew decyzyjnych: 


- mogą być budowane przy wykorzystaniu algorytmicznych technik „dziel 
i rządź”, znanych ze swej szybkości i wykorzystywanych niemal przez wszyst- 
kie algorytmy budowy drzew 

- mogą reprezentować dowolnie złożone pojęcia pojedyncze lub wielokrotne, 
jeśli tylko ich definicje da się wyrazić w zależności od atrybutów, 

— ich forma reprezentacji jest względnie czytelna dla człowieka, 

- doskonale bronią się przed szumem danych, 

— pozwalają na łatwe do reprezentacji regułowej 
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— mogą być wykorzystywane do selekcji jak i ekstrakcji cech. 
e Wady drzew decyzyjnych: 


— im więcej klas oraz im bardziej się one nakładają, tym większe drzewo decy- 
zyjne, 

- trudno zapewnić jednocześnie wysoką jakość klasyfikacji i małe rozmiary 
drzewa, 

— przy budowie drzewa testuje się wartość jednego atrybutu na raz, co powo- 
duje niepotrzebny rozrost drzewa dla danych, w których istnieją zależności 
między atrybutami, 

— tylko pewne klasy problemów daje się rozwiązywać za pomocą drzew decy- 
zyjnych. 


15.1.2. C4.5 


Algorytm C4.5 jest jednym z popularniejszych algorytmów do tworzenia 
drzew decyzyjnych, i to głównie ze względu na jego prostotę oraz skuteczność. 
Został zaproponowany przez dr Ross'a Quinlan około roku 1996. Budowa drzewa 
jest realizowana począwszy od korzenia, a jako atrybut testowy wybiera się taki, 
który maksymalizuje przyrost informacji (ang. information gain) w węźle. Przy- 
rost informacji jest wzbogacony o czynnik normalizujący, nazwany współczyn- 
nikiem przyrostu informacji (ang. gain ratio). Czynnik normalizujący znajdu- 
jący się w mianowniku oznacza wartość informacyjną atrybutu a. Dla 
zbioru danych D, który jest podzbiorem wszystkich danych treningowych bada- 
nym w węźle, określamy najpierw przyrost informacji IG dla atrybutu a. 


IG.(D) = I(D) — Eq(D) (15.1) 


Powyższe równanie wykorzystuje entropie E,(D) jaka by wystąpiła gdyby do po- 
działu został wybrany argument a. Przy ustalonych wartościach argumentu v, 
wartości decyzji c e C dla danej ze zbioru danych D otrzymujemy wyrażenie: 


|[Da=vl > 


ID] æc IDI 


Diol IB 


Ea(D) = Y vE Ra 082 (15.2) 


I(D) oznacza informacje jaka posiada zbiór danych D i oblicza sie go przez ob- 
liczenie entropii w zależności tylko od końcowej decyzji dla elementu ze zbioru 
treningowego ce C 

ID°| |D°| 


logo DI (15.3) 


I(D)=) - 
2 |D| 


Ostatecznie wybór atrybutu jest dokonywany przez testowanie wszystkich do- 
stępnych atrybutów za pomocą równania (15.4) 


IGq(D) 
[Da=vl 


|Da=v| 
y ve Ra- TDI log 45 


GR,(D) = (15.4) 


Proces budowy drzewa decyzyjnego mozna podzieli¢ na dwa etapy: 
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e zbudowanie drzewa maksymalnego, 
e przycinanie drzewa. 


Zbudowanie drzewa maksymalnego można przedstawić (na bazie algorytmu 
ID3) z pomocą poniższej pseudo-funkcji, która zwraca drzewo dla następu- 
jących oznaczeń: R - zbiór nie kategoryzujących atrybutów (jeszcze nie były 
testowane), C - kategoryzujące atrybuty, S - zbiór danych w tym węźle. 


Funkcja ID3 dla R,C,S 


— Jeśli S jest pusty > zwróć liść z wartością Błąd 

— Jeśli S zawiera atrybuty z taką samą wartością — zwróć liść z tą wartością 

— Jeśli R jest pusty — zwróć liść z wartością najczęściej powtarzających się 
wartości w S 

- Znajdź D atrybut z największym Gain_Ratio w R 

Niech dj| j=1,2, .., m będą wartościami atrybutu D 

— Niech Sj| j=1,2, .., m będą podzbiorami S dla odpowiednich wartości atry- 
butu D 

— Zwróć — drzewo z korzeniem w D i łukami dl, d2, .., dm 

wywołaj: ID3(R-D, C+D, S1), ID3(R-D, C+D, S2), .., ID3(R-D, C+D, Sm) 


Funkcję tę wywołuje się dopóki drzewo nie zostanie utworzone w całości, to 
znaczy każdy węzeł wystawi odpowiednie liście. 


Przycinanie drzewa nie tylko pozwala na utworzenie drzewa mniejszego, a co 
za tym idzie szybszego w działaniu, ale również zapobiega zbytniemu dopa- 
sowaniu do danych. Przycinanie powoduje (w stopniu regulowanym przez 
współczynniki np. m, najczęściej m = 1) rozmycie decyzji i zwiększenie błędu 
klasyfikacji na zbiorze trenującym, co pozwala na zmniejszenie tego błędu dla 
nieznanych danych. Metodę tę stosuje się przeglądając drzewo od dołu i te- 
stując poddrzewa wg nierówności (15.5). To kryterium bazuje na ocenie praw- 
dopodobieństwa zmniejszenia błędu klasyfikacji liścia, który miałby zastąpić 
istniejący fragment drzewa, dla statystycznie sprawdzonych przykładów ze 
zbioru testowego. Węzeł zastępuje się odpowiednim liściem jeśli błąd liścia 
ej jest mniejszy niż pewna ustalona wartość progu. gdzie e, oznacza błąd kla- 
syfikacji dla zastępowanego węzła, a |D,| liczbę przykładów znajdujących sie 


w węźle n. 
en(l-e 
eps en tm enll- en) (15.5) 
|Dzl 


Algorytm C4.5 pozwala także na podawanie danych ciągłych, jak i danych 
z brakującymi wartościami argumentów. Jeśli danych jest dużo, do budowy al- 
gorytmu wykorzystuje się A danych, a do przycinania i. Jeśli dane są ciągłe, prze- 
dział tak dzieli się na określoną ilość klas (zazwyczaj dwie) korzystając z kryterium 
entropii, aby zysk z danego atrybutu był jak największy. Jeśli chodzi o reakcję na 
brakujące wartości, jest kilka sposobów: 
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e Pomijanie wszystkich przykładów niezdefiniowanych kompletnie, oraz dotoze- 
pelne dane 


nie wagi zmniejszajacej znaczenie danego algorytmu wszystkie dane 


e Uzupełnianie brakujące informacji przez wstawienie: 


— najczęściej występującą wartości, 
- najczęściej występującej wartości w zbiorze przykładów tej samej kategorii, 
- wartości ustalonej na podstawie znanych wartości innych atrybutów. 


15.1.3. CART 


Algorytm CART (ang. Classification and Regression Trees) to jeden z naj- 
popularniejszych i najskuteczniejszych algorytmów do indukcji drzew decyzyj- 
nych. Narzędzie to powstało na początku lat 80 ubiegłego stulecia [I], jednak 
w przeciągu lat doczekało się kilku nieznacznych modyfikacji [2] stanowiąc od- 
dzielną grupę algorytmów do budowy drzew. Jak sama nazwa wskazuję algorytm 
ten może rozwiązywać problemy klasyfikacyjne, jak i regresyjne. Jego działanie 
opiera się na tworzeniu drzew binarnych (z jednego węzła mogą wychodzić co 
najwyżej dwie gałęzie) wykorzystując cechy ciągłe albo dyskretne. Dla cech cią- 
głych rozpatrywane są wszystkie możliwe podziały na dwa zbiory (—oo, a] oraz 
(a,oo), a dla cech dyskretnych wszystkie możliwe podziały zbioru wartości cech 
na dwa rozłączne i uzupełniające się podzbiory. Każdemu węzłowi przypisuje się 
etykietę atrybutu dominującego w węźle, bądź wynikająco z oceny kosztów po- 
myłek. Algorytm CART jako kryterium jakości podziałów wykorzystuje przyrost 
czystości węzłów. Miarą nieczystości jest tzw. Indeks Giniego (ang. Gini Index): 


k 
Gini(C)=1- Y pi (15.6) 
j=1 


gdzie: pj- jest prawdopodobienstwem j — tej klasy w węźle C. 

Algorytm CART pozwala także skorzystać z miary entropii obliczanej w iden- 
tyczny sposób jak dla C4.5 oraz z tzw. twoing. W tym algorytmie sugeruje się bu- 
dowę maksymalnego drzewa i ocenę jego zdolności do uogólnienia. w wewnętrz- 
nym teście wyznacza się optymalną wartość A minimalizującą: 


Err(D) + Alp (15.7) 


gdzie: Ip jest liczbą liści drzewa. 

Algorytm CART stosuje dwa warianty tej metody. W pierwszym z nich zo- 
staje wybrane drzewo o minimalnej wartości powyższego wyrażenia, a w drugim 
drzewo zostaje maksymalnie przycięte. 

Zaczynając od węzła ze wszytkimi danymi, ogólne działanie algorytmu można 
zobrazować następująco: 


Powtórz: 


— Rozważ wszystkie możliwe wartości atrybutów 
— Wybierz atrybut (X = ty) najlepiej dzielący cały zbiór, korzystając z jednego 
z kryteriów podziału 
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- Jeśli X < t wyślij dane w „lewo”, w przeciwnym wypadku wyślij dane 
w „prawo” 


dla otrzymanych węzłów, aż kryterium stopu nie każe zatrzymać procesu bu- 
dowy drzewa 

e Jeśli dla jakichś danych brakuje wartości wykorzystywanej w danym węźle — 
analizuj tzw. podziały zastępcze (ang. surrogate splits) 

e Ostatecznie przytnij drzewo korzystając z walidacji krzyżowej (ang. cross- 
validation) 


Ważną zaletą algorytmu jest jednoczesne zestawienie kosztu resubstytucji 
(współczynnika błędu obliczonego ze zbioru uczącego) ze współczynnikiem 
błędu obliczonym na zbiorze testowym (ta druga wartość może być wynikiem 
prostej walidacji, walidacji krzyżowej, wielokrotnej walidacji krzyżowej czy me- 
tod bootstrapowych). Przycinanie drzewa dokonywane jest z uwzględnieniem 
obu współczynników. 

Algorytm CART nie ma jedynej, prostej i słusznej implementacji. Budowanie 
drzewa za pomocą tego narzędzia może przebiegać na wiele sposobów, które jed- 
nak są do siebie dość zbliżone. Przykładem może być wybranie jednego z trzech 
kryteriów podziału, wybór kryterium stopu czy różne wykorzystanie walidacji 
krzyżowej w procesie odpowiedniego przycięcia drzewa. Proces budowy drzewa 
także jest inny dla problemu regresyjnego jak i klasyfikującego, co dodatkowo 
komplikuje wybór tej „słuszne” metody. Sami twórcy udokumentowali szereg 
procedur mających ułatwić budowanie drzewa wykorzystując CART, jednak są to 
jedynie propozycje, które, jak sami zaznaczają, nie są niezawodne i czasem warto 
spróbować innego rozwiązania, gdyż może ono przynieść lepsze rezultaty. 


15.1.4. Sortownia owoców 


Aby zobrazować działanie drzew decyzyjnych w praktycznej implementacji 
systemu ekspertowege wykonano projekt systemu zarządzającego linią w sor- 
towni owoców. Sam problem jest dość abstrakcyjny, ponieważ przeważnie nie 
miesza się różnych typów owoców na jednej linii. Pozwala jednak ukazać w przy- 
stępny sposób szczegóły procesu budowy takiego systemu, biorąc pod uwagę nie 
tylko klasyfikację samego owocu, ale także inne aspekty ekonomiczne. 

W projekcie przyjęto kilka uproszczeń. Założono, że na jednej taśmie będą po- 
jawiały się pojedyncze owoce i trzeba będzie ja zakwalifikować albo do odpowied- 
niego typu owocu albo do odpadów. Nad taśmą znajduje się system wizyjny, za 
pomocą którego system ekspertowy będzie dokonywał odczytu atrybutów. Do- 
datkowo pod taśmą znajduje się waga, dzięki której system zna wagę owocu. Ca- 
łość systemu przedstawiona jest na rys. Wynikiem projektu miał być pro- 
sty program do symulacji komputerowych, dlatego pominięto w nim zagadnienia 
buforu linii, transportu, magazynowania zasobów itp. Klasyfikacji owoców na ta- 
śmie miała zostać wykonana z uwzględnieniem celów ekonomicznych firmy. To 
znaczy, że brane miały być pod uwagę różne priorytety firmy. Problem ten jest na 
tyle ogólny, że może mieć zastosowanie przy rozwiązywaniu innych problemów 
klasyfikacyjnych. 
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Dużą zaletą projektowanego rozwiązania miała być możliwość budowania 
wielu drzew za pośrednictwem panelu programu oraz przy wykorzystaniu poda- 
nej przez użytkownika bazy danych symulacyjnych. Zdecydowano, że zaimple- 
mentowanym algorytmem do budowy drzew będzie algorytm CART. Skutkiem 
tego, użytkownik nie będzie musiał posiadać specjalistycznej wiedzy z zakresu 
ekonomii, ale powinna wystarczyć mu intuicja w kwestii od czego może zależeć 
decyzja. Założono, że system sam rozpoznaje różne owoce, co miało ułatwić eks- 
trahowanie cech i pozwalać skupić się na skuteczności realizacji postawionego 


zadania. 
Kamera => System wizyjny => Klasyfikacja 
H 


00000000 
[waga 


Decyzja 


Rys. 15.2: Poglądowy schemat systemu. 


Klasyfikacja obiektu 


Na podstawie przeprowadzonej klasyfikacji system może podjąć jedną z sze- 
ściu decyzji. 
e jabłko typu A (zwykłe czerwone jabłko), 
jabłko typu B (jabłko zielone), 
e pomarańcza, 
e banan, 
e odpady (zepsute owoce, nierozpoznane, z powodów ekonomicznych), 
e wstrzymanie linii. 


Każda z tych decyzji zależy zarówno od ekonomicznego aspektu, jak i oceny 
owocu na podstawie analizy obrazu. 


Założenia dotyczące analizy obrazu 


Głównym źródłem informacji na temat owocu jest jego obraz przekazywany 
do systemu. Dodatkowym parametrem jest jego waga. Początkowo waga miała 
być losowana dla danego owocu, jednak w trakcie realizacji projektu zdecydo- 
wano, że bliższe prawdy będzie ocenianie jej również na podstawie obrazu, ko- 
rzystając z wielkości owocu. 

Kamera znajdująca się nad systemem została zasymulowana przez zdjęcia 
owoców robionych zawsze w takich samych warunkach, to znaczy z takiej sa- 
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mej wysokości (około 30cm), na takim samym podłożu (czarny brystol), przy ta- 
kim samym oświetleniu. Zdjęcia zostały wykonane aparatem o rozdzielczością 
2Mpx oraz przekonwertowane do rozmiaru 800x600 punktów. Głównym powo- 
dem użycia takiego aparatu i konwersji było pokazanie, że system wizyjny nie 
musi być bardzo dobrej jakości, a wystarczające rozwiązanie nie musi być drogie. 

Do ekstrahowanie cech wykorzystano bibliotekę OpenCV. Pozwala ona na 
przetwarzanie obrazów w dość łatwy sposób. Zawiera między innymi funkcje 
pozwalające na wyszukiwanie krawędzi, konturu, oraz wykonanie wielu innych 
obliczeń prowadzących do parametryzacji, np. na wyliczenie momentów geome- 
trycznych czy momentów Hu, a nawet odnajdywanie szablonów. Ponadto biblio- 
teka OpenCV pozwala na podstawową obróbkę zdjęć za poprzez wyrównywanie 
histogramu, sumowanie czy mnożenia obrazów albo stosowania określonych fil- 
trów. 

Po znalezieniu konturu, korzystając z innych funkcji biblioteki, łatwo można 
określić dość dużą ilość parametrów obrazu, takich jak: wielkości obiektu (pole 
powierzchni - moment geometryczny Moo), wielkość łuku oraz kulistość, poło- 
żenie środka obiektu, jego kąt nachylenia do osi głównej i inne. Ponieważ wek- 
tor danych zawiera też atrybuty do analizy pod kątem ekonomicznym, postano- 
wiono zawęzić ich ilość i z analizy obrazu wybierać tylko najbardziej znaczące 
cechy: 


e kolor (wartość z przedziału 0-255 osobno dla składowej czerwonej, zielonej 
i niebieskiej), 

e waga(oceniania na podstawie pola powierzchni), 

e krągłość (wartość liczbowa), 

e pomarszczenie owocu. 


Na podstawie tych cech miały być wyznaczane wartości atrybutów, od których 
zależeć miał algorytm budowy drzewa oraz późniejsza klasyfikacja. 

Najtrudniejszym i najważniejszym etapem przetwarzania obrazu jest znale- 
zienie odpowiedniego konturu. Istnieje na to kilka metod. W systemie posta- 
nowiono skorzystać z funkcji cvFindContour biblioteki OpenCV, która zapisuje 
wszystkie znalezione na obrazie kontury we sekwencji cvSeq. Funkcja ta wyma- 
gała jednak odpowiedniego przygotowania obrazu. CvFindContour jako obraz 
wejściowy przyjmuje obraz pseudobinarny, to znaczy do analizy wykorzystuje 
tylko dwie wartości koloru pikseli: białe i czarne (jeśli obraz zawiera szare pik- 
sele, wszystkie nie czarne piksele traktowane są jako białe tzn. o wartości 1). 


Aspekt ekonomiczny 


Skupiając się na tym aby jedynym zadaniem systemu nie była czysta klasyfi- 
kacja, której jedynym wynikiem jest stwierdzenie czy dany owoc jest jabłkiem czy 
nim nie jest, należało dodać atrybuty odzwierciedlające rzeczywisty stan firmy 
oraz jej założenia. Jednak aby lepiej dobrać odpowiednie cechy należy zrozu- 
mieć główne aspekty, którymi kieruje się właściciel sortowni. Oczywiście ogól- 
nie sprawa wydaję się dość prosta, gdyż głównym kołem, które napędza cały sort 
owoców jest zysk, czyli pieniądz. To właśnie na to należy zwrócić największą 
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uwage projektujac system ekspertowy wspierajacy realizacje procesu produkcyj- 
nego. Tak wiec celem systemu jest nie tylko poprawna klasyfikacja, ale takze zop- 
tymalizowanie zysku przez sortownie. 

Opierając się na doświadczeniu autorów zdobytym podczas praktyk w fir- 
mach produkcyjnych zdecydowano dobrać takie cechy, które związane są z bez- 
awaryjnością linii oraz wymogami stawianymi przez klienta, co rzutuje nie tylko 
na przychód, ale także na markę sortowni: 


e Liczba odpadów w danej jednostce czasu t - cecha, która ma wpływ na zatrzy- 
manie linii, czy to zpowodu usterki systemu wizyjnego, czy zepsutej partii owo- 
ców. Może przyjmujmować wartości: mała, średnia, duża. 

Miejsce w palecie - cecha odpowiada za wolne miejsca w palecie. Wymiana 

palety w zależności od jej rodzaju wymaga określonej ilości czasu co może nie 

być pożądane jeśli zależy nam na szybkości przesortowania jakiegoś owocu, np. 

w skutek braków w zamówieniu. Cecha ta przyjmuje wartość TAK lub NIE. 

+ Braki w zamówieniu - cecha określa aktualny stan sortowni. W skutek wystapie- 
nia braków system ekspertowy podejmie odpowiednie kroki. Cecha określana 
jest w trzystopniowej skali (1- nie ma braków, 2 - braki, 3- duże braki). 

Priorytet sortu - cecha określa, jaki owoc jest obecnie najważniejszy dla sys- 
temu. Może się to wiązać z brakami w zamówieniu, zbliżającym się terminem 
dostawy, czy specjalnymi życzeniami klienta (np. „Dzień banana” w sieci su- 
permarketów). Dostępne wartości odpowiadają dostępnym owocom (banan, 
pomarańcza, jabłko A, jabłko B) oraz brak priorytetu. 

e Usterka - cecha, która określa prawdopodobieństwo wystąpienia problemu 
mechanicznego na linii sortującej owoce. Ma ona związek z czasem pracy li- 
nii, datą ostatniego wykonanego przeglądu oraz zastosowania się do matrycy 
TPM. Przyjmuję wartości: małe (30%), średnie (60%) oraz duże (90%). 


Powyższe cechy pozwalają na uwzględnienie czynników, które wpływają na 
przychód przedsiębiorstwa. Załóżmy, że firma ma określone zamówienia (kon- 
trakty) i ich daty realizacji i na tej podstawie wskazuje priorytet sortu oraz braki 
w zamówieniu. Te obydwa atrybuty także wpływają na kształtowanie wizerunku 
sortowni oraz są brane pod uwagę przy analizie prawdopodobieństwa wystąpie- 
nia usterki. Z jednej strony nie wywiązanie się z przyjętego kontraktu ma wpływ 
na markę firmy oraz wiąże się ze sporymi karami finansowymi, natomiast z dru- 
giej strony ciągłe sortowanie owoców bez względu na duże prawdopodobień- 
stwo wystąpienia usterki prowadzi do zatrzymania linii, co powoduje utratę czasu 
i pieniędzy. 

Wszystkie te atrybuty są wybierane w interfejsie użytkownika tworzonego pro- 
gramu . Ma to odzwierciedlić realizację zamówień i terminów. Nie są one obli- 
czane bezpośrednio przez program, ponieważ samo zagadnienie dotyczące za- 
rządzania i księgowości firmy powodowałoby odsunięcie się od meritum pro- 
blemu i zagłębienie się w problemy nie związane z przedstawianym tu tematem. 
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Cały system ekspertowy został zrealizowany w środowisku Visual Studio C++ 
2008 Express Edition. W programie można wydzielić trzy części, które opisano 
poniżej. 

e Moduł analizujący obraz, 
e Moduł budujący drzewa, 
e Interfejs programu wykorzystujący pozostałe moduły. 


15.2.1. Moduł analizujący obraz 


Implementacja tego modułu znajduje sie on w osobnym pliku 
ParameterFinder.cpp. Zawiera on klasę o nazwie ParameterCounter, 
której obiekt należy utworzyć w programie głównym. Klasa ta pozwala na prze- 
tworzenie pliku podanego jako parametr metody Find, która dla danego obrazu 
wywołuje szereg innych metod, a w wyniku ich działania zostają wypełnione 
poszczególne pola metody z parametrami obrazu. 

Analiza obrazu rozpoczyna się od znalezienia konturu owocu. Wykorzy- 
staną do tego metodą jest metoda znajdująca się w bibliotece OpenCv o na- 
zwie cvFindContour. Do przygotowanie obrazu dla funkcji cvFindContour za- 
pisującej kontur do użytecznej formy wskaźnika na sekwencję cvSeq. Do dal- 
szej obróbki rozważano kilka funkcji również zaimplementowanych w bibliotece 
OpenCV: 


e cvThreshold - funkcja, która dla pewnego progu dzieli obraz w zależności 
od parametru ThresholdType na obraz czarno-biały, albo biało-czarny, zeruje 
wartości poniżej, lub powyżej progu, albo zmniejsza liczbę użytych wartości. 
Wadą tej funkcji jest trudność w ustawieniu parametrów tak aby działała ona 
poprawnie dla różnych typów owoców. 

cvCanny - funkcja, dla której obrazem wyjściowym są znalezione krawędzie za 
pomocą filtra Sobel 3x4, 5x5 lub 7tx7. Zanim zostaje użyty filtr obraz podlega 
transformacji za pomocą funkcji threshold dla dwóch rożnych wartości po- 
dawanych w parametrach wywołania. Wadą tej funkcji jest fakt, że efektem jej 
działania były tylko linie, które zaznaczały największe gradienty zmiany koloru. 
Linie te były w zależności od parametrów albo nieciągłe, albo było ich bardzo 
wiele i były poszarpane w związku z tym nie dało się wyznaczyć odpowiedniego 
konturu. 

e cvInRange - do tej funkcji podawane są dwa porównywane obrazy. Funkcja 
zwraca obraz, pozostawiając na nim piksele obrazu wejściowego o wartościach 
mieszczących się w zadanym przedziale, oraz piksele o wartościach zmienio- 
nych, jeśli nie mieściły się w tym przedziale. 

FloodFill - fukcja ta dla zadanego punktu startowego (floodSeed) obrazu 
wejściowego, sprawdza, czy sąsiednie piksele są ciemniejsze lub jaśniejsze od 
tego punktu, z uwzględnieniem zadanego w parametrach marginesu. Jeśli tak, 
to są one zamalowywane na zadany kolor. Funkcja sprawdza w ten sposób cały 
obraz. 
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Ostatecznie zdecydowano sie na funkcję cvF loodFill, ponieważ ustawienie pa- 
rametrów dla pozostałych funkcji sprawdzało się tylko w części przypadków, 
a funkcja cvFloodFi11 miała największą skuteczność dla użytych danych testo- 
wych. 

Kolejne etapy przetwarzania obrazu rozpoczęto od zastosowania wybranej 
funkcji na kolorowym obrazie. Następnie obraz był konwertowany do skali szaro- 
ści. Taki obraz został podawany do funkcji znajdującej kontur. Kolejno należało 
spośród odnalezionych konturów w sekwencji wybrać ten największy. Jako kry- 
terium oceny wielkości został przyjęty moment geometryczny Moo, obliczany za 
pomocą funkcji CvMoments. Niestety, dla bardzo ciemno czerwonych jabłek me- 
toda okazała się nieskuteczna, ponieważ owoc zlewał się z tłem. Dlatego wpro- 
wadzono dodatkowy test - jeśli długość łuku największego konturu była mniej- 
sza niż ustalona wartość minimalna, procedura znalezienia konturu następowała 
od nowa, ale za pomocą innej funkcji napisanej przez autorów. Funkcja ta dzia- 
łała dużo wolniej (chociaż czas jej wykonania mieścił się w dopuszczalnym czasie 
równym około 1s). Podobnie jak cvFloodFil1 funkcja ta polega na wypełnieniu 
pikseli tła czarnym kolorem. W tym celu przeglądany i testowany jest cały obraz 
pod względem koloru piksela. Warunki w przypadku których piksel jest klasy- 
fikowany jako tło zostały dobrane doświadczalnie. Następnie znowu obraz jest 
poddawany transformowaniu do skali szarości, znajdowaniu konturu, oraz wy- 
szukaniu największego spośród nich. Założono, że po użyciu którejś z tych dwóch 
funkcji kontur jest poprawny. 

Ostatecznie obliczano następujące cechy obiektu na obrazie: 


e krągłość (ang. shape) - parametr zdefiniowany równaniem: 


ArcLeng th? 
4T Moo 


gdzie ArcLength jest długością łuku, moo oznacza powierzchnię bryły otoczo- 
nej konturem 

e pomarszczenie (ang. shrivel) - parametr zdefiniowany jako współczynnik ilości 
(określanej przez ilość białych pikseli) krawędzi w obrębie konturu owocu do 
jego powierzchni. Są efektem wrysowania na obraz linii powstałych przez za- 
stosowanie filtru Canny dla obrazu. Ponieważ wykrywa on gwałtowne zmiany 
kolorów, jest w stanie obrysować „zmarszczki” owocu ze względu na inny kolor 
zepsutych miejsc. 

¢ kolor owocu - jest odnajdywany metodą przeglądania obrazu oraz obliczenia 
średniej wartości pikseli znajdujących się w konturze osobno dla kanału czer- 
wonego, zielonego i niebieskiego. 


15.2.2. Moduł budowy drzewa 


Biblioteka OpenCV posiada metody pozwalające na zaawansowane przetwa- 
rzanie danych i uczenie maszynowe, znajdują się tu również metody na budowa- 
nie drzew decyzyjnych. Cały moduł do budowy drzew można znaleźć w biblio- 
tece OpenCV. Korzysta on z algorytmu CART. Tworzenie drzewa odbywa się przez 
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wywołanie funkcji trenującej drzewo train na utworzonym wcześniej obiekcie 
klasy CvDTree. Funkcja ta sama wywołuje inne funkcje oraz korzysta z innych 
obiektów bez potrzeby udziału programisty w tym procesie. Jako parametry 
wejściowe funkcji należy podać dane uczące w postaci macierzy dwuwymiaro- 
wej oraz wektor rezultatów. Obydwa parametry muszą być zapisane w forma- 
cie CvMat. Dodatkowo można określić, w których miejscach brakuje danych (np. 
wskutek problemu z ekstrakcją koloru z owocu). Do tego celu należy utworzyć 
zero-jedynkową macierz o dwóch wymiarach formatu CvMat. Brak danej okre- 
śla się jedynką w odpowiednim miejscu macierzy. W strukturze CvDTreeParams 
również podawanej jako parametr, można określić parametry budowy drzewa ta- 
kie jak: 


e max_categories- określa maksymalną liczbę atrybutów wziętych pod uwagę 
przy budowie drzewa. Pozwala to na zmniejszenie wielkości drzewa, albo po- 
prawienie jego jakości w przypadku kiedy jest dość dużo atrybutów i nie wia- 
domo które z nich są istotne, a które nie mają znaczenia. 

max_depth- określa maksymalną głębokość drzewa. Tym parametrem również 

można wpływać na wielkość drzewa, co wiąże się z bardziej skomplikowanymi 

regułami oraz dokładniejszą predykcją. 

e min_sample_count- nie wydziela nowego poddrzewa jeśli w węźle jest mniej 
danych niż ustawiona wartość. 

e cv_folds- określa ilość wymaganych krzyżowych walidacji. Parametr ten wy- 
korzystuje się do przycinania drzewa i określenia jego optymalnej głębokości. 

e use_surrogates- parametr pozwala na wykorzystywanie przy brakujących da- 
nych dodatkowych podziałów, kiedy systemowi nie udało ustalić się jakiejś ce- 
chy (np. użytkownik jej nie podał, albo w pliku danych wejściowych był błąd) 
wtedy ta cecha jest przewidywana. 

e use_lse_rule -określa wykorzystywanie metody Harsher pruning do przyci- 
nania drzewa, co ma wpływ na wielkość drzewa. 

e truncate_pruned_tree- ustalone na wartość prawdy powoduje że wycięte ga- 
łęzie drzewa nie są pamiętane. 

* regression_accuracy- jedno z kryterium stopu dla dzielenia kolejnych wę- 
złów. 

e priors- pozwala na ustalenie wag przewidywanych kategorii. Łatwo zobrazo- 
wać wykorzystanie tego pojęcia tak jak pokazano to w przykładowym progra- 
mie biblioteki openCV na przykładzie klasyfikacji grzybów jadalnych. Większy 
priorytet przy budowie drzewa został ustalony tak, aby błędnie klasyfikowany 
był jadalny grzyb do trujących niż odwrotnie. W efekcie nigdy nie zdarzy się sy- 
tuacja zakwalifikowania trującego grzyba jako jadalny. W tym drzewie również 
istnieje możliwość dodania takiego priorytetu. 


Po utworzeniu drzewa istnieje możliwość jego zapisania do formatu "xmlźa po- 
mocą funkcji save. Kolejną przydatną funkcją jest get_var_importance. Po- 
zwala ona na pobranie informacji o ważności danego atrybutu w danym drzewie. 
Te informacje są przekazywane do interfejsu programu. 
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Aby zakwalifikować owoc używając utworzonego drzewa należy użyć funkcji 
predict podając jej wektor cech kwalifikowanego obiektu. Funkcja zwraca do- 
stęp do końcowego węzła z którego można odczytać rezultat predykcji (poprzez 
pole value). OpenCV dostarcza możliwość własnej implementacji procesu prze- 
widywania na podstawie utworzonych w drzewie reguł. W tym przypadku na- 
leży skorzystać m.in. z takich obiektów i funkcji jak CvDTreeSplit, CvDTreeNode, 
get_pruned_tree_idx, split, get_root, get_node iinnych opisanych w doku- 
mentacji dotyczącej OpenCV. 


15.2.3. [Interfejs i obsługa programu 


Interfejs dla systemu ekspertowego sortowni owoców musi posiadać opcje po- 
zwalające na ustawienia priorytetów ekonomicznych firmy, możliwości zmiany 
istniejącego drzewa, wytrenowania go na nowych danych, a także możliwość uzy- 
skania informacji o aktualnie klasyfikowanym obiekcie (monitorowanie popraw- 
ności) lub o drzewie (istotność parametrów). Wszystkie te opcje zostały podzie- 
lone między 4 zakładki: 


Picture - jest to jedyna w tym programie zakładka symulacyjna, pozwala użyt- 
kownikowi na wybranie danego owocu do klasyfikacji. W normalnym systemie 
zamiast przycisku po prostu pojawiałby się owoc, a jego wykrywanie mogłoby 
zostać zrealizowane za pomocą np. czujników przerwania strumienia światła. 

e Tree - posiada dwa panele. Pierwszy pozwala na ustalenie pliku danych za 
pomocą przycisku „Load Data’, na podstawie których budowane jest drzewo. 
Można również wykorzystać aktualnie utworzone dane wykorzystując tryb 
„Data Generation Mode” opisany niżej. Drugi panel zawiera pola w których 
można zmienić parametry dla budowanego drzewa opisane w podrozdziale 
„Moduł budowy drzewa”, następnie wystarczy wybrać przycisk „Build Tree” 

e Data - dotyczy ona danych dla obiektu do klasyfikacji (lub danych testowych). 

Posiada dwa panele. „Economic data” w którym należy ustawić aktualne prio- 

rytety firmy (który owoc jest priorytetowy- „Sort priority”), wielkości braków 

w zamówieniach („deficiences”), a także parametry które w rzeczywistym sys- 

temie powinny być automatycznie odczytywane, a u nas zostały zasymulo- 

wane „Failure probability” czyli prawdopodobieństwo usterki maszyny (np. 
przy braku zatrzymania linii w celu przeglądu), miejsce w palecie na owoce 

„Space in pallet”, oraz ilość owoców zakwalifikowanych do odpadów w okre- 

Slonej jednostce czasu „Reject in t period”. Panel „Visualisation data” jest nie- 

aktywny do zmiany przez użytkownika, wyświetla parametry zidentyfikowane 

dla danego obiektu przez moduł do analizy obrazu ParameterFinder. 

Classificate - po wczytaniu zdjęcia oraz wybraniu odpowiednich parametrów 

w celu uzyskania decyzji systemu ekspertowego należy nacisnąć znajdujący się 

przycisk „Classificate fruit”. Poniżej znajduje się pole, w którym pojawi się de- 

cyzja. W tej zakładce znajduje się również panel opisujący znaczenie poszcze- 
gólnych atrybutów dla decyzji podejmującej przez zbudowane drzewo. 


W trybie „Data Generation Mode” (wybierany z paska menu) dla kolejno wczyty- 
wanych owoców ustawia się nie tylko parametry ekonomiczne, ale także odpo- 
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wiednią decyzję, na podstawie której system będzie potem trenował drzewo. Go- 
towy zbiór danych można zapisać za pomocą przycisku „Save Data” w zakładce 
Tree. Jest to jednak dość czasochłonna metoda, dlatego można również wczy- 
tać odpowiedni zbiór danych uczących korzystając z przycisku „Load Data” w tej 
samej zakładce. 


15.2.4. Badania 


Głównym problemem, który ujawnił się podczas tworzenia tego systemu eks- 

pertowego był brak poprawnych danych uczących. Biblioteka OpenCV wymaga 
przynajmniej 100 wektorów danych, aby utworzyć minimalne drzewo, a te jed- 
nak jest nie wystarczające do poprawnej predykcji. 
Początkowo podjęto próbę wygenerowania takich danych, które nauczą system 
samej klasyfikacji owoców bez względu na atrybuty ekonomiczne, aby spraw- 
dzić poprawność ekstrahowania cech ze zdjęć. Ten etap był dość prosty i za- 
kończył się powodzeniem. Głównymi atrybutem podczas budowania reguł był 
jak łatwo przewidzieć kolor, którego ważność oceniona została na 36%. Kolej- 
nymi atrybutami zostali kształt i waga (około 25%), co także było zgodne z ocze- 
kiwaniami. Ostatnią pozycję zajął atrybut marskość (około 15%) co głównie zwią- 
zane jest z dużą liczbą poczernionych owoców dostarczonych do tworzenia da- 
nych. W tym etapie przeanalizowano ponad 200 zdjęć owoców takich jak: doj- 
rzałe banany, zepsute banany, czerwone jabłka, niedojrzałe czerwone jabłka, zie- 
lone jabłka, żółto-czerwone jabłka, pomarańcze i niedojrzałe pomarańcze. Na 
rys.[15.3]pokazano wartości ważności poszczególnych atrybutów i wynik predyk- 
cji czerwonego jabłka. Na kolejnym rysunku, [15.4]pokazano wynik ekstrahowania 
cech ze zdjęcia. 


| Picture | Tree _ | Data | Caseńczte | 


Features importance 
Weight 
Rejects in t period: 


2 
0: 
Space in pallet: 0% 
Deficiencies: 0% 
Sort priority: 0 

Failure probability: 0: 

Shape 24,09727% 
Shrivel: 14.40054% 


Color 36.10658% 


Classificate Fruit 


Result: Red Apple 


(| The tree was trained 


Rys. 15.3: Wartości poszczególnych atrybutów i wynik predykcji dla danych nie 
uwzględniających aspektu ekonomicznego. 
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Rys. 15.4: Ekstrakcja cech a) obrysowany kontur jabłka, z którego obliczany jest 
współczynnik określającego kształt, b) pomarszczenie jabłka. 


Kolejnym krokiem było wygenerowanie danych, dla których oprócz wymie- 
nionych już atrybutów (zobacz rys. uwzględniono również atrybuty odpo- 
wiedzialne za aspekt ekonomiczny (zobacz rys.[15.6). Bez wątpienia była to naj- 
trudniejsza część zadania. Do analizy znów użyto ponad 200 zdjęć tych samych 
owoców co poprzednio. Podczas klasyfikacji dokonywano odpowiedniej zmiany 
atrybutów ekonomicznych . Zaniedbanie jednego z nich prowadziło do błędnej 
klasyfikacji, i nie było to tylko błędne zatrzymanie linii, ale np. zakwalifikowa- 
nie banana jako pomarańczy, co wynikało z reguł utworzonych przez nowo do- 
dane atrybuty (zobacz rys.[15.7|i rys.[15.8). Powstało wiele różnych wersji danych, 
gdzie każde zdjęcie owocu musiało być kwalifikowane przynajmniej trzy razy (dla 
kwalifikacji samego owocu, dla kwalifikacji do kosza odpadów oraz dla kwalifika- 
cji czego skutkiem było zatrzymanie linii). Co ciekawe, pewne usystematyzowa- 
nie ich tworzenia (np. poprzez wprowadzanie tych samych zmian dla podobnych 
owoców) prowadziło do jeszcze gorszych wyników niż dane tworzone w sposób 
bardziej losowy. Ostatecznie zbudowane drzewo działało w sposób w miarę sa- 
tysfakcjonujący, jednak nie nieomylny. Jak widać wagi atrybutów rozkładają się 
w sposób zbliżony do siebie, co świadczy o wielu wytworzonych regułach i obra- 
zuje więksżą złożoność problemu przy uwzględnieniu ekonomicznych przesła- 
nek przedsiębiorstwa. 

Na jakość drzewa można wpływać przez dobór parametrów przed jego bu- 
dową. W zależności od doboru wartości parametrów i przesłanek ekonomicz- 
nych nawet dla tych samych danych powstają różne drzewa decyzyjne. Różnice te 
dobrze widać jeśli np. w budowie drzewa wykorzystana zostanie metody przyci- 
nania. W przeprowadzonych eksperymentach na skutek przycinania trudno było 
wygenerować drzewo z głębokością większą niż 3. Przy ustawieniach domyślnych 
zdarzało się, że niedojrzałe pomarańcze były klasyfikowane jako zielone jabłka. 
Można to było oczywiście skorygować ustawiając dla pomarańczy większą war- 
tość „Result priority”. W tym wypadku drzewo okazało się bardziej rozbudowane. 
Na rys. [15.10] mozna zaobserwować, jak zmienia się znaczenie niektórych cech. 
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Data i [Picture] Tree [Data | Classficate 
Source Data 


Load data 


Current data set 
C:\Users\bolo Desktop Owocki Dane konc 


| Tree Parameters 


| Max depth: 8 
| Min sample count 10 
| Cross-valdations 10 
| 1SE rule use: [Nov] 


Remember pruned branches: [Yes y] 
teen) 


Result priors 


Red apple: 1 Orange: 3 
Green apple: 1 Mx 1 
Banana: 1 Stopline: 1 


The tree was trained. 


Build Tree 


Rys. 15.5: Wybrane parametry tworzenia drzewa. Ustawienie parametru ”1Se 
rule” na "No” pozwala na zbudowanie większego drzewa, które jest potrzebne 
przy takiej liczbie atrybutów. 


Data | Picture | Tree | Data | Ciasaficate | 
| Economic data 


Space in pallet: [Yes = 


Sort priority: Banana 3 


Failure probabilty: [Low <30% v] 


Visualisation data 
203 
Color (Dto 255) 133 
56 


| Weight: Medium 
| Shape: Other 


| Shrivel: High 


The tree was trained. 


Rys. 15.6: Wybrane wartości atrybutów ekonomicznych oraz wyekstrahowane ce- 
chy ze zdjęcia. 


W przykładzie tym wyraźnie widać, że kolor bardziej decyduje o wynikach klasy- 
fikacji. Łatwo też wyróżnić główne atrybuty dzielące dane. Widać, ze ich istotność 
niektórych z nich jest większa od pozostałych, przy czym znaczenie sporej grupy 
atrybutów było zaledwie kilkuprocentowe. Kiedy przycinanie drzewa (ang. har- 
sher prunning) nie jest wykorzystywana, rozkład znaczenia atrybutów jest bar- 
dziej równomierny, a kolor nie jest już taki ważny. Przełożyło się to na problemy 
z rozpoznawaniem czerwonych jabłek przez system, co mogło być spowodowane 
dominacją ustawień aspektów ekonomicznych. To również dało się skorygować, 
jak widać na rys.[15.9] znaczenie koloru zostało poprawione, jak również inny pa- 
rametr opisujący sam owoc (jego pomarszczenie) uzyskał większe znaczenie. 
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15.2. Opis implementacji 


Rys. 15.7: Zaznaczony kontur oraz zmarszczki na owocu. 


E [Pitre [Tree [Data | Classficate | | 


Features importance 

Weight: 11,71624% 
Rejects int period: 11,8486% 
Space inpalet: 8,561082% 
Deficiencies 9,614134% 


Sort priority: 14,83049% 
Failure probability: — 13,1877% 
Shape 9,233909% 
Shrivel 7.63104% 
Color 13,37679% 
Classficate Fruit 
Result: Mix 


Rys. 15.8: Rezultat predykcji oraz ważność poszczególnych atrybutów. 


15.2.5. Podsumowanie 


Drzewa decyzyjne doskonale sprawdzają się jako narzędzie do budowania 
bazy wiedzy dla systemu ekspertowego. Ich zaletą jest przejrzystość generowa- 
nych reguł, bardzo dobra klasyfikacja oraz w miarę prosta implementacja. W po- 
wyższym rozdziale pokazano jak za pomocą systemu wizyjnego oraz drzew de- 
cyzyjnych wspomóc działanie przedsiębiorstwa. Praca 24h na dobę, minimali- 
zacja pomyłek oraz szybka reakcja na spodziewane wydarzenia, to tylko niektóre 
z zalet zautomatyzowanej sortowni. Co prawda przedstawiony tutaj problem jest 
czysto fikcyjny (żadna sortownia nie sortuje na jednej taśmie czterech różnych ty- 
pów owoców), ale można o nim mówić jak o pewnej skali problemów, w których 
drzewa decyzyjne plasują się na samej górze najlepszych dotychczas wymyślo- 
nych rozwiązań. 
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Picture | Tree | Data 


Picture | Tree | Data Classificate 


m Features importance ~~} m Features importance 
Weight: 14,08909% Weight: 11.51498% 
Rejects in t period: 8,420704% Rejects int period: 9,608149% 
Space in pallet: 9,137203% Space in pallet: 3,295238% 
Deficiencies: 9,330544% Deficiencies: 11.31076% 
Sort priority: 18,23389% Sort priority: 12,39772% 
Failure probability:  12,35894% Failure probability: 11.78837% 
Shape: 12,44227% Shape: 10,86657% 
Shrivel: 3,39244% Shrivel: 14,63654% 
Color: 12.59491% Color: 14,58168% 


Classificate Fruit 


Result: Mix Result: Stop line 


Rys. 15.9: Metoda przycinania niewykorzystana: a) brak priorytetów rezultatów, 
b) z priorytetami rezultatów. 


Picture | Tree | Data 


Picture] Tree | Data Classificate | 


m Features importance 7] m Features importance 

Weight: 11.86071% weight: 9,871084% 
Rejects in t period: 4,142459% Rejects int period: 4,71429% 

Space in pallet: 9,261373% Space in pallet: 4,437037% 
Deficiencies: 4,566108% Deficiencies: 21,43482% 
Sort priority: 18,53801% Sort priority: 16,62733% 
Failure probability: 8,995013% Failure probability: 4,623236% 
Shape: 13,40876% Shape: 5,842356% 
Shrivel: 4,648589% Shrivel: 6,748204% 
Color : 24,57899% Color : 25,70164% 


Classificate Fruit Classificate Fruit 


Result: Banana Result: Banana 
Rys. 15.10: Metoda przycinania wykorzystana: a) brak priorytetów rezultatów, 
b) z priorytetami rezultatów. 
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ROZDZIAL 


ANALIZA RYZYKA KREDYTOWEGO Z 
WYKORZYSTANIEM REGRESJI 
LOGISTYCZNEJ 

K. Kurpanik, A. Trznadel 


Nauka o wydobywaniu informacji z ogromnych zbiorów danych nazywana 
jest eksploracją danych. Jest to dziedzina na pograniczu statystyki, sztucznej inte- 
ligencji, zarządzania danymi i wielu innych. Niniejszy rozdział przedstawia umó- 
wienie jednej z metod drążenia danych jaką jest regresja logistyczna. 


16.1. Metody regresji w drążeniu danych 


Cytując za [1]: Eksploracja danych jest analizą (często ogromnych) zbiorów 
danych obserwowacyjnych, w celu znalezienia nieoczekiwanych związków i pod- 
sumowania danych w oryginalny sposób, tak aby były zarówno zrozumiałe, jak 
i przydatne dla ich właściciela. 

Eksploracja wiedzy powinna być postrzegana jako całkowity proces — od 
zrozumienia uwarunkowań biznesowych, przez zebranie i zarządzanie danymi, 
przygotowanie danych, modelowanie oraz ewaluację modelu aż do wdrożenia 
modelu. Istnieje wiele różnych metod drążenia danych: 


e Regresja liniowa, 

Regresja wielokrotna, 

Regresja logistyczna, 

Naiwna estymacja bayesowska, 
Algorytmy genetyczne. 


16.1.1. Regresja logistyczna, a regresja liniowa 


Regresja liniowa jest wykorzystywana w celu estymowania wartości oczeki- 
wanej zmiennej celu przy znanych wartościach zmiennych objaśniających. Jed- 
nak w przypadku, gdy zmienna celu jest zmienną jakościową stosuje się ana- 
logiczny model regresji logistycznej (ang. logistic regression). Inaczej mówiąc, 


16. Analiza ryzyka kredytowego 


regresja logistyczna jest metodą predykcji zmiennych binarnych (przyjmujących 
tylko dwie wartości). Więcej informacji na temat zastosowania regresji logistycz- 
nej dla zmiennych celu z większa liczbą kategorii można znaleźć w książce Ho- 
smera i Lemeshowa [2]. 


16.1.2. Przykład regresji logistycznej 


Rozważmy medyczny przykład, w którym lekarze są zainteresowani spraw- 
dzeniem zależności między wiekiem pacjenta (zmienna wiek) i obecnością (1) 
lub nieobecnością (0) choroby (zmienna choroba) [3]. Dane z obserwacji 20 pa- 
cjentów przedstawiono w tab.[16.1|oraz na rys.[16.1] 


Numer pacjenta | Wiek | Choroba | Numer pacjenta | Wiek | Choroba 
1 25 0 11 50 0 
2 29 0 12 59 1 
3 30 0 13 60 0 
4 31 0 14 62 0 
5 32 0 15 68 1 
6 41 0 16 72 0 
7 41 0 17 79 1 
8 42 0 18 80 0 
9 44 1 19 81 1 
10 49 1 20 84 1 


Tab. 16.1: Wiek 20 pacjentów wraz z odpowiedzią czy cierpią na daną chorobę. 


Rys. 16.1: Wykres zmiennej choroba wzlędem zmiennej wiek z linią regresji linio- 
wej i regresji logistycznej. 


Na wykresie widoczny jest model regresji liniowej, zaznaczony linią przery- 
waną, oraz model regresji logistycznej, zaznaczony linią ciągłą. Jak widać, regre- 
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16.1. Metody regresji w drazeniu danych 


sja logistyczna zakłada, ze zależność pomiędzy zmienną objaśniającą a zmienną 
celu jest nieliniowa. Na wykresie widoczne jest, że regresja liniowa gorzej przewi- 
duje obecność choroby dla większości pacjentów. 


16.1.3. Linia regresji logistycznej 


Rozważmy za [3] warunkową wartość oczekiwaną zmiennej celu Y, przy za- 
danej wartości zmiennej objaśniającej X = x, czyli E(Y|x). W regresji liniowej 
zmienna celu jest definiowana jako Y = Bo + fı +e, skąd E(Y |x) = Bo + Bi x. Niech 
(x) oznacza wartość oczekiwaną E(Y|x) dla regresji logistycznej. Wtedy warun- 
kowa wartość oczekiwana dana jest wzorem 


efor Pix 


N(x) = 


Oczywiscie powyzszy model jest prawdziwy tylko w przypadku, gdy istnieje jedna 
zmienną objaśniająca. Aby uprościć rozważania przyjęto na razie takie założenie. 
Krzywa dana równaniem jest nazywana krzywą sigmoidalną. Twórcy me- 
tody zdecydowali się na taki rozkład, gdyż jest on bardzo łatwy w modelowaniu 
i interpretacji. Można zauważyć, że m(x) w granicy w +00 przyjmuje wartość 1, 
natomiast w granicy w —oo przyjmuje wartość 0, zatem funkcję można in- 
terpretować jako prawdopodobieństwo, że wynik jest pozytywny. Analogicznie 
1 — (x) oznacza prawdopodobienstwo, że wynik jest negatywny. 

Model regresji liniowej zakłada, ze Y = Bo + 61 +e, gdzie błąd e ma rozkład nor- 
malny ze średnią równą zeru i stałą wariancją. W przypadku regresji logistycznej 
obowiązuje nieco inne założenia. Ponieważ zmienna celu jest binarna, błąd może 
przyjąć tylko dwie wartości: 


e Jeżeli Y = 1, co zachodzi z prawdopodobieństwem z(x), to € = 1- x(x), 
e Jeżeli Y = 0, co ma miejsce z prawdopodobieństwem 1 — z(x),toe=0—n(x)= 
n(x). 


Zatem wariancja e dana jest przez m(x)[1—(x)]. Jest to wariancją rozkładu dwu- 
mianowego. Zakłada się więc, że zmienna celu w modelu regresji logistycznej 
Y = n(x) +€ ma rozkład dwumianowy z prawdopodobieństwem sukceu 7z (x). 


16.1.4. Funkcja logitowa 


Przydatnym przekształceniem w przypadku regresji logistycznej jest transfor- 
macja logitowa, zdefiniowana następująco: 


g(x) = nt = bo + Bix. (16.2) 


Jak widać, funkcja ta ma kilka atrakcyjnych własności regresji liniowej, takich jak 
liniowość i ciągłość. 
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16.1.5. Estymacja największej wiarygodności 


Jedną z własności regresji liniowej jest to, że można analitycznie wyliczyć 
optymalne wartości współczynników regresji metodą najmniejszych kwadratów. 
W przypadku regresji logistycznej, niestety, nie istnieje taka analityczna postać 
rozwiązania. W tym przypadku stosuje się metodę estymacji największej wiary- 
godności. Aby wyznaczyć szukane współczynniki definiuje się tzw. funkcję wia- 
rygodności /(6|x) zależną od parametrów 5, która określa prawdopodobieństwo 
uzyskania obserwowanych danych x. Zadanie polega na znalezieniu takich war- 
tości B, które maksymalizuja /(6|x). Jeśli założyć, ze wszystkie posiadane obser- 
wacje są niezależne, funkcję wiarygodności można przedstawić w postaci 


UBlx) = [I [1% A - mx). (16.3) 


i=1 
Dla uproszczenia obliczeń definiuje się logarytm wiarygodności L(8|x) = 
In(/(Blx)). Estymatory największej wiarygodności znajdujemy różniczkując 
L(B|x) względem $ i przyrównując wyniki do zera. Niestety w odróżnieniu od 
regresji liniowej, nie istnieją analityczne wzory na obliczenie tych różniczek. 


16.1.6. [Interpretacja wyników regresji logistycznej 


Dla przykładu omówionego w podrozdziale |16.1.2| estymatory największej 
wiarygodności nieznanych parametrów fp i 6; są odpowiednio równe by = 
—4,372 i bı = 0,06696. Zatem wartość funkcji (16.1) została oszacowana jako 


y ef) 
f(x) = 14 0200” (16.4) 
z oszacowaną funkcją logitową 
&(x) = —4,372 + 0,06696- wiek. (16.5) 


Powyższe równanie można wykorzystać do oszacowania prawdopobieństwa, że 
pacjent cierpi na daną chorobę, jeśli tylko znany jest jego wiek. Dla przykładu, 
dla 50-letniego pacjenta $(x) = —4,372 + 0,06696 - 50 = — 1,024 oraz f(x) = 0,26. 
Zatem oszacowane prawdopodobieństwo, że pacjent cierpi na daną chorobę jest 
równe 26%, a prawdopodobieństwo, że nie ma tej choroby to 74%. 


16.1.7. [Interpretacja modelu regresji logistycznej 


W regresji liniowej współczynnik nachylanie 5, jest interpretowany jako 
zmiana wartości zmiennej celu, gdy wartość zmiennej objaśniającej wzrośnie 
o jedną jednostkę. W regresji logistycznej współczynnik ten można interpreto- 
wać analogicznie, przy czym jest on współczynnikiem nachylenia funkcji logito- 
wej. Innymi słowy pı = g(x +1) — g(x). Aby uprościć interpretację współczyn- 
nika B; wprowadza się pojęcie szansy. Jest ona zdefiniowana jako iloraz prawdo- 
podobieństwa, że wydarzenie nastąpi, przez prawdopodobieństwo, że wydarze- 
nie nie nastąpi. Przykładowo oszacowane prawdopodobieństwo dla 50-letniego 
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16.2. Modelowanie ryzyka kredytowego z wykorzystaniem regresji logistycznej 


pacjenta, ze jest badz nie jest chory wynosza odpowiednio 26% i 74%, a zatem 
szansa jest równa 0,26/0,74 = 0,35. Łatwo zauważyć, że jeżeli bardziej prawdo- 
podobne jest nastąpienie zdarzenia, to wartość szansy jest większa od 1 (w przy- 
padku przeciwnym wartość szansy jest mniejsza od 1). Zatem szansa określa, 
w jakim stopniu jest bardziej prawodopodobne, że wydarzenie nastąpi w porów- 
naniu z tym, że nie nastąpi. Dla regresji logistycznej z binarną zmienną objaśnia- 
jaca szansę, że wydarzenie nastąpi dla rekordów z wartością x = 1 można obliczyć 
jako 


1 
2U gib, (16.6) 
1-n(1) 
odpowiednio szansa, że wydarzenie nastąpi dla rekordów z wartością x = 0 
można obliczyć jako 


PO) Mi. (16.7) 
1-10) 


Dodatkowo można wprowadzić pojęcie ilorazu szans, zdefiniowane jako iloraz 
szansy, że wydarzenie nastąpi dla rekordów z wartością x = 1 przez szansę, że 
wydarzenie nastąpi dla rekordów z wartością x = 0. Zatem 


ebo+B1 


of (16.8) 


Na przykład, jeżeli przeprowadzono próby kliniczne i otrzymano iloraz szansy 
wystąpienia raka śluzówki macicy u kobiet, które kiedykolwiek stosowały zastęp- 
czą terapię estrogenową, przez szansą wystąpienie tej choroby u kobiet, które ni- 
gdy tej terapii nie stosowały wyniosł 5, oznacza to, że jest pięć razy bardziej praw- 
dopodobe, iż kobiety, które stosowały terapię zastępczą zachorują na tę odmianę 
raka, niż kobiety, które tej terapii nie stosowały. 


16.2. Modelowanie ryzyka kredytowego z wykorzystaniem 
regresji logistycznej 


Model do analizy ryzyka kredytowego można wyznaczyć na różne sposoby. 
Jednym z możliwym rozwiązań jest zastosowanie pakietów do analizy statystycz- 
nej. Na rynku istnieje wiele narzędzi umożliwiających wyliczanie modelu regresji 
logistycznej. W niniejszym rozdziale zostanie przedstawiony sposób wyliczenia 
modelu w aplikacji WEKA (ang. Waikato Environment for Knowledge Analysis). 


16.2.1. Zbiór danych 


W celu ilustracji ścieżki postępowania prowadzącej od postawienia problemu 
aż do otrzymania gotowego modelu, wykorzystany zostanie zbiór danych GERMAN 
(http: //wuw.dataminingconsultant .con/data/german.dat). Jest to zbiór 
zawierajacy 1000 danych kredytowych z niemieckiego banku podzielone na 2 
Klasy: kredyty przyznane oraz kredyty odrzucone. Kazdy rekord opisany jest 20 
atrybutami: 
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1. status istniejącego konta banko- 11. okres obecnego miejsca zamieszka- 


wego, nia, 
2. okres posiadanego konta podawany 12. posiadane mienie/nieruchomości, 
w miesiącach, 13. wiek kredytobiorcy, 
3. historia konta bankowego, 14. inne systemy ratalne, 
4. cel udzielenia kredytu, 15. rodzaj zakwaterowania, 
5. wysokość kredytu, 16. liczba obecnych kredytów w tym 
6. oszczędności bankowe / obligacje, banku, 
7. okres zatrudnienia, 17. typ zatrudnienia, 
8. wielkość procentowa raty w sto- 18. liczba poręczycieli, 
sunku do dochodu netto, 19. telefon, 
9. status personalny i płeć, 20. czy pracownik jest obcokrajowcem. 


10. inni dłużnicy i żyranci, 


Aby skorzystać z dostarczonego zbioru danych, należy na początku prze- 
kształcić go do jednej z postaci obsługiwanych przez program WEKA. Najprościej 
jest to zrobić, zapisując plik german.dat w formacie csv, wykorzystując w tym 
celu np. program OpenOffice.org Calc. 


16.2.2. Wykorzystanie aplikacji WEKA 


W celu zbudowania modelu należy na początek załadować plik zawierający 
zbiór uczący. Zrobić to można w następującej sekwencji czynności: 


1. Otwórz okno Explorer programu WEKA. 
2. Na zakładce Preprocess kliknij Open file i określ ścieżkę do pliku wejścio- 
wego germat . csv. 


Okno Explorer programu WEKA pokazuje podstawowe informacje na temat 
pliku uczącego (jak pokazano na rys. [16.2). Dwadzieścia zmiennych objaśnia- 
jących i zmienną klasy pokazano w ramce Attributes. Ramka Status na dole 
okna informuje, że plik został poprawnie wczytany przez program WEKA. Aby 
zdefiniować, jaki model ma zostać zbudowany należy wykonać następującą se- 
kwencję czynności: 


. Wybierz zakładkę Classify. 

. Wewnątrz ramki Classifier naciśnij przycisk Choose. 

. Wybierz Classifiers -> Functions -> Logistic. 

. Ponieważ w doświadczeniu jeden zbiór zostanie wykorzystany zarówno jako 
zbiór uczący i testujący, zatem wewnątrz ramki Test options należy wybrać 
Percentage split, i ustalić ile procent całego zbioru ma zawierać zbiór te- 
stujący. 

5. Naciśnij Start, aby zbudować model. 


> WDH 


WEKA buduje model regresji logistycznej i pokazuje wyniki w oknie Classifier 
output. Znajduje sie tam kompletny model regresji logistycznej, wraz z wynikami 
testów. Otrzymany wynik można wykorzystać do przewidywania ryzyka kredyto- 
wego. 
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+ Weka Explorer 


Preprocess | Classify | Cluster | Associate | Select attributes 


Filter 


Current relation 


Relation: german_new 
Instances: 1000 


Attributes 


Selected attribute 


Name: Status of existing checking account 


Attributes: 21 Missing: 0 (0%) 


Edit... 


Distinct: 4 


Ca] 


Type: Nominal 
Unique: 0 (0%) 


No. 


Count 
269 


274 


394 


63 


1 [i Status of existing checking account a 
| |Duration in months 
[C [Credit history 


[FlLoan purpose 
[ [Credit amount 3 
= account/bonds 


resently employed since 
[|Payment as percentage of disposable income 
L [Personal status and gender 
[other debtors/quarantors 
[Present residence since 


[Property 
Elana 


BIPIE S olol | on} an| s| wln 


4 


Remove 


Status 


Rys. 16.2: Okno eksploracji WEKA - zaktadka wstepnego przetworzenia. 


16.2.3. Model otrzymany z aplikacji WEKA dla zbioru uczącego 
german.dat 


Model przedstawiony w tym rozdziale został wygenerowany w aplikacji 


WEKA. Jest to model regresji logistycznej, którego parametry przedstawiono po- 


niżej. 

Bo= 3.0507 
B,= -0.4006 — xı- ‘Status of existing checking account = less-200DM 
B2= -0.7802 — x2- Status of existing checking account = ODM 
B3= 0.9337 — x3 — Status of existing checking account = no-account 
Ba= 0.1867 — x4 —Status of existing checking account = over-200DM 
s= -0.0275 — x5 — Duration in months 
s= -0.2323 — x6— Credit history = duly-till-now 
B7= 0.6253 — x7-— Credit history = critical 
Ps=_ 0.0345 — xg— Credit history = delay 
By = -0.9689 — xg — Credit history = bank-paid-duly 

Bio= -0.7624 — x19 — Credit history = all-paid-duly 

Bi= 0.0646 — xy, — Loan purpose = business 
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Bi2= 0.1015 — x12 — Loan purpose = furniture 
Bi3= -0.6949 — x13 — Loan purpose = new-car 
Bis= 0.1983 — xq4 — Loan purpose = radio-tv 
Bis= -0.7332 — x15 — Loan purpose = education 
Big= -0.1667 — xış — Loan purpose = domestic-app 
Bi7= -0.485 — x17 — Loan purpose = repairs 

Big= 0.9689 — x18 — Loan purpose = used-car 
Big= 0.7972 — xı — Loan purpose = others 

P20= 1.3619 — x29 — Loan purpose = retraining 
Ba1= -0.0001 — x2; — Credit amount 


Bo2= 0.9012 — x22 — Saving account/bonds = over1000DM 
B23= -0.4439 — x23 — Saving account/bonds = less100DM 
Bo, = -0.0677 — x24 — Saving account/bonds = less500DM 


Bs= 0.5031 — x25 — Saving account/bonds = unknown 

Bog= -0.0657 — x26 — Saving account/bonds = less1000DM 

B27 = -0.2288 — x27 — Presently employed since = one-year 

Baa= -0.1144 — xg — Presently employed since = four-years 

B29 = -0.0216 — x29 — Presently employed since = over-seven 

B30 = 0.5523 — x39 — Presently employed since = seven-years 

631 = -0.2933 — x3; — Presently employed since = unemployed 

B32 = -0.3281  — x32 — Payment as percentage of disposable income 
B33= -0.1241 — x33 — Personal status and gender = married-male 
B34= 0.3227  — x34 Personal status and gender = single-male 

b35 = -0.216 — x35 — Personal status and gender = female-divorced 
B3s6= -0.4917 — x36 — Personal status and gender = male-divorced 
B37= -0.1804 — x37 — Other debtors/guarantors = none 

B3g= -0.6126 — x38 — Other debtors/guarantors = co-applicant 
B3a= 0.7973 — x39 — Other debtors/ guarantors = guarantor 

Bao= -0.0031 — x49 — Present residence since 


a= 0.2568 — xq] — Property = real-estate 

Pa2= 0.0617 — X42 — Property = car 

Pąz3= -0.4701 — x43 — Property = none 

Bas = -0.0249  — x44 — Property = building-society 
Bas = 0.0144 — X45 — Age 


Bas = -0.3314 — x46 — Other installment plans = bank 
Ba7= -0.2031 — x47 — Other installment plans = stores 
Bag = 0.322 — x4g — Other installment plans = none 
Bag= 0.0895 — x49 — Housing = own 

Bso= -0.3549 — x59 — Housing = rent 
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Bsi= 0.3512 
Ps2= -0.2811 
Bs3= 0.3882 
Bsa = 0.422 
Bs5= 0.4667 
Ps6= 0.9459 
P57= -237.20 
Bsg= -0.2489 
PBs9= -0.2959 
Beo= 1.3908 


— x51 — Housing = free 
— x52 — Number of existing credits in this bank 
— X53 — Job = skilled 
— X54 — Job = unskilled-resident 
— X55 — Job = management 
— X56 — Job = unemployed-non-resident 
— X57 — Job = Unskilled-resident 
— X53 — Number of people 
being liable to provide maintenance for 
— X59 — Telephone 
— X60 — Foreign worker 


16.2.4. Wykorzystanie aplikacji do analizy ryzyka kredytowego 


stan bieżącego rachunku 
kredyt na okres 

historia kredytowa 

cel kredytu 

kwota kredytu 

stan konta oszczędnościowego 
okres zatrudnienia 

rata jako % dochodu 

stan cywilny 
współkredytobiorcy/gwaraci 
stałe miejsce zamieszkania od 


majątek 


wiek 

dodatkowe obciążenia kredytowe 
mieszkanie 

liczba kredtyów w tym banku 
stanowisko 

liczba osób na utrzymaniu 
telefon 

obcokrajowiec 


a WO 
Mel 


decyzja o przyznaniu kredytu: 
NEGATYWNA 


propozycja zastepcza - 
zmniejszyc kredyt do 9000zł 


Rys. 16.3: Interfejs aplikacji do analizy ryzyka kredytowego. 


Model przedstawiony w podrozdziale|16.2.3|został wykorzystany do budowy 
aplikacji pozwalającej na szybkie podjęcie decyzji kredytowej. Umożliwia on do- 
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konanie klasyfikacji klientów banku pod względem ryzyka kredytowego. Interfejs 
programu przedstawiono na rys. Program względnia wszystkie parametry 
opisane w podrozdziale[16.2.1]i oprócz decyzji kredytowej wylicza również alter- 
natywną propozycję kredytową, czyli do jakiej kwoty należy zmiejszyć kredyt, aby 
klient mógł go otrzymać. 


16.2.5. Podsumowanie 


W niniejszym rozdziale pokazano w jaki sposób można wykorzystać regre- 
sję logistyczną do modelowania ryzyka kredytowego. Testy przeprowadzone na 
otrzymanym modelu pokazały, że pozwala on na podjęcie prawidłowej decyzji 
kredytowej w ok. 80% przypadków, co jest bardzo dobry wynikiem. Dla porówna- 
nia model zbudowany za pomocą metody naiwnej klasyfikacji bayesowskiej, dla 
tego samego zbioru danych, miał skuteczność tylko 70%. Można zatem stwier- 
dzić, iż regresja logistyczna z całą pewnością nadaje się do modelowania zjawisk, 
dla których zmienna celu jest zmienną binarną. Przeprowadzone badania i otrzy- 
mana aplikacja utwierdziły autorów w przekonaniu, że wiele metody analizy sta- 
tystycznej pozwalają na modelowanie rzeczywistych zjawisk z nieciągłą zmienną 
celu. 
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ROZDZIAL 


METODY WNIOSKOWANIA W SYSTEMACH 
EKSPERTOWYCH (PROGRESYWNE I 
REGRESYWNE) 

S. Wikaliński, P. Zych 


Celem niniejszego rozdziału jest przedstawienie podstawowych metod wnio- 
skowania, stosowanych w systemach ekspertowych. Zostały w nim omówione 
podstawowe zadania, rodzaje i zastosowania systemów ekspertowych, ze szcze- 
gólnym uwzględnieniem systemów regułowych. Na przykładzie zrealizowanego 
projektu zademonstrowano sposoby tworzenia prostych systemów ekspertowych 
oraz implementacji metod wnioskowania progresywnego i regresywnego w Śro- 
dowisku SWI-Prolog. 


17.1. Zagadnienia teoretyczne 


17.1.1. Kim jest ekspert? 


Według definicji prof. Antoniego Niederlińskiego [I]: 


Ekspert to człowiek posiadający specjalistyczną wiedzę w pewnej dziedzinie 
i umiejętność stosowania jej dla rozwiązywania problemów tej dziedziny, na- 
byte w wyniku studiów i praktyki. 


Wysokiej klasy specjalista, potrafiący rozwiązać bardzo skomplikowane problemy 
dotyczące np. układów sterowania silników odrzutowych, poświęcając swój czas 
na zgłębianie jednej tylko wąskiej specjalności, w innych kwestiach pozostaje 
kompletnym laikiem. W cywilizacji opartej na wiedzy konieczność tak skrajnej 
specjalizacji stała się faktem. To dzięki niej, żyjąc w XXI wieku, możemy korzy- 
stać z najnowszych zdobyczy techniki oraz kultury, jednocześnie nie zaprzątając 
sobie głowy olbrzymią ilością zbędnych informacji [2]. 


17. Metody wnioskowania w systemach ekspertowych 
17.1.2. Systemy ekspertowe 


Wiedza i umiejętności ekspertów, często niedoceniane przez zarządzających 
kadrami, posiadają dziś niejednokrotnie większą wartość niż cały majątek trwały 
przedsiębiorstw. Są one jednak zgromadzona w ulotnej ludzkiej pamięci, co czyni 
je bardzo trudnymi do zachowania. Ponadto, nawet najlepsi eksperci są „tylko” 
ludźmi, w związku z czym popełniają typowo ludzkie błędy, wynikające ze zmę- 
czenia bądź chwili nieuwagi. Kolejnym problemem jest długi czas, jaki potrze- 
buje człowiek na podjęcie decyzji w przypadku rosnącej ilości danych. Dlatego 
też tak istotnym wyzwaniem jest opracowanie skutecznych metod gromadzenia 
wiedzy eksperckiej w nieulotnej pamięci komputerów oraz zastąpienie ludzkich 
procesów myślowych szybkimi i bezbłędnymi obliczeniami maszynowymi. Jedy- 
nym znanym sposobem, aby tego dokonać, jest tworzenie komputerowych pro- 
gramów, bazujących na osiągnięciach sztucznej inteligencji, zwanych systemami 
ekspertowymi, lub też po prostu „systemami z bazą wiedzy” [1]. 

Podsumowując: System ekspertowy jest programem (bądź też zbiorem pro- 
gramów), w którym zawarta jest specjalistyczna, ekspercka wiedza. Rozwiązuje 
on problemy zlecane ekspertom w taki sposób, że skorzystać z niego może nawet 
osoba nie znające się na danej dziedzinie [1]. 

Systemy tego typu stosuje się obecnie prawie wszędzie: przy diagnozowaniu 
chorób, poszukiwaniu złóż minerałów, udzielaniu porad prawnych. Powszechnie 
stosowane są w diagnostyce uszkodzeń (czasem także przy ich naprawie), stero- 
waniu procesami, a także na etapie projektowania np. układów scalonych. Zna- 
lazły one również szerokie zastosowanie w analizie danych oraz prognozowaniu 
(między innymi pogody). Jednym z przykładów częstego zastosowania systemów 
ekspertowych jest wstępna ocena wniosków kredytowych. 

Systemy ekspertowe dzielimy ze względu na zastosowanie, na trzy ogólne 
grupy: 

e systemy doradcze - najbardziej popularne systemy ekspertowe, których zada- 
niem jest szybkie dostarczenie użytkownikowi rozwiązania problemu, które 
może być przez niego zaakceptowane, odrzucone bądź zmienione, 

systemy krytykujące - których zadaniem jest sprawdzenie poprawności rozwią- 
zania dostarczonego przez człowieka i wydanie odpowiedniej opinii, 

systemy podejmujące decyzję bez kontroli człowieka - całkowicie autonomicz- 
nie, bez konieczności akceptowania wyników przez użytkownika. Pracują naj- 
częściej tam, gdzie wywiązują się z zadania znacznie lepiej od człowieka, bądź 
też udział człowieka jest niemożliwy. 


Nie wszystkie programy komputerowe, rozwiązujące specjalistyczne pro- 
blemy, możemy od razu nazywać systemami ekspertowymi. Najczęściej postu- 
luje się wobec nich pewną zasadniczą własność: baza wiedzy takiego programu 
musi być oddzielona od systemu wnioskującego. Mówiąc inaczej, program wy- 
konywalny nie może zawierać gotowego algorytmu-recepty na rozwiązanie pro- 
blemu. Jest on tylko systemem wnioskującym, rodzajem „silnika” wykonującego 
operacje na bazie wiedzy oraz danych wejściowych i w efekcie generującego roz- 
wiązanie. Taka struktura systemu daje nam możliwość łatwej modyfikacji bazy 
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wiedzy - dodawania do niej nowych reguł postępowania bądź informacji. Sys- 
tem taki powinien zostać wyposażony także w edytor bazy wiedzy oraz interfejs 
użytkownika. 


17.1.3. Metody reprezentacji wiedzy w systemach ekspertowych 


Spotykane są różne metody reprezentacji wiedzy, takie jak reguły, wektory 
wiedzy, sieci semantyczne, sztuczne sieci neuronowe, algorytmy genetyczne lub 
zbiory rozmyte [3]. Każdy z wymienionych sposobów umożliwia zgromadzenie 
pewnej ilości wiedzy eksperckiej, chociaż jej reprezentacja (oraz modyfikacja) 
może przebiegać w różny sposób. Regułowe bazy wiedzy, zbudowane na pew- 
nych zasadach logiki, jawnie obrazują tok i zasady podejmowania decyzji w spo- 
sób bardziej przejrzysty i zrozumiały dla człowieka. Pozwalają też na stosunkowo 
łatwą edycję poszczególnych reguł, czego nie można już powiedzieć na przykład 
o sieciach neuronowych. Sieć neuronowa, wytrenowana na pewnych danych wej- 
ściowych, często bywa „czarną skrzynką” - ciężko jest prześledzić jej działanie, 
nie ma też możliwości poprawienia jej wyników w inny sposób, niż przez wytre- 
nowanie jej od nowa. Metody wnioskowania omówione w tym rozdziale w spo- 
sób naturalny dotyczą więc głównie systemów regułowych, bądź też regułowo- 
modelowych (RMSE). 


17.1.4. Klasyfikacja regułowych baz wiedzy 


Bazy wiedzy systemów regułowych można podzielić na dwa sposoby. Pierw- 
szy sposób klasyfikacji opiera się na różnicach w rodzaju stosowanej w systemie 
logiki. Wyróżnia się w nim: 


e bazy wiedzy dokładne - oparte na tradycyjnej, arystotelesowskiej logice dwu- 
wartościowej (prawda/ fałsz), 

e bazy wiedzy niepewne - oparte na zmodyfikowanej stanfordzkiej algebrze 
współczynników pewności. Prawdopodobienstwu wniosków każdej reguły 
przyporządkowuje się liczbą z przedziału [-1,1], nazywaną współczynnikiem 
pewności. 


Drugim sposobem podziału baz wiedzy jest podział ze względu na tryb za- 
gnieżdżania reguł oraz przyjęte założenia wobec świata. Mówiąc najogólniej, 
można przyjąć dwa założenia odnośnie świata, w którym nasz system działa: 
może on być otwarty lub zamknięty. Nie jest to jednak kwestia filozoficzna - ma 
ona bowiem decydujący wpływ na zachowanie naszego systemu podczas wnio- 
skowania. Dlaczego? Otóż przyjmując, że świat jest „otwarty”, przyznajemy jed- 
nocześnie, że mogą w nim znajdować się fakty, których nie znamy. Jeżeli nie 
mamy przesłanek potwierdzających dany fakt, nie można być pewnym, że jest 
on nieprawdziwy - co najwyżej nieokreślony (nieukonkretniony)! Nie wolno więc 
używać zanegowanych wniosków jednych reguł w innych regułach. Z kolei przy 
założeniu zamkniętego świata przyjmuje się, że posiadana wiedza jest kompletna 
i jeśli nie można czegoś dowieść z dostępnych faktów - bez wątpienia jest to nie- 
prawdziwe. Stąd przy założeniu zamkniętego świata można śmiało korzystać 
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z negacji przy zagniezdzaniu reguł. Z tego powodu rozróżniane są dwa rodzaje 
bez wiedzy: 


e bazy wiedzy elementarne - przyjmują założenie otwartego świata, w związku 
z czym regułom zagnieżdżonym w innych regułach nie może towarzyszyć ne- 
gacja, 

e bazy wiedzy rozwinięte - przyjmują założenie zamkniętego świata, zagnieżdża- 
niu reguł może towarzyszyć negacja. 


Różnicę między implikacją logiki a implikacją regułową korzystającą z założe- 
nia otwartego świata przedstawiają tabele|17.2]i[17.3] Ogólny podział baz wiedzy 
przedstawiono w tab.[17.1] 


Tab. 17.1: Klasyfikacja baz wiedzy. 


elementarne doktadne | rozwiniete doktadne 


elementarne niepewne | rozwiniete niepewne 


Tab. 17.2: Implikacja logiki 


q p 4>P 
prawda | prawda | prawda 
fałsz prawda | prawda 
fałsz fałsz prawda 


Tab. 17.3: Implikacja regułową korzystającą z założenia otwartego świata. 


q p q~p 
prawda prawda prawda 
fatsz nieukonkretnione | prawda 


17.1.5. Wnioskowanie 


Zdolność do wyciągania wniosków wydaje sie być nieodłączną cechą ludz- 
kiego rozumowania. Aby omówić metody wnioskowania systemów eksperto- 
wych, należy wpierw zdefiniować samo wnioskowanie. Co jest charakterystyczne 
dla procesów wnioskowania? Po pierwsze, wniosków nie można wyciągać z ni- 
czego. Do przeprowadzenia procesu wnioskowania potrzebne są jakieś infor- 
macje, dane, fakty. Efektem procesu wnioskowania są natomiast bez wątpienia 
nowe, wcześniej nieznane fakty. Aby je wygenerować należy posiadać szerszą 
wiedzę, należy znać wzajemne relacje faktów posiadanych z faktami, których pró- 
buje się dowieść - na przykład ich wzajemne wykluczanie się lub wynikanie. Za- 
leżności takie nazywane są regułami - tworzą one bazę wiedzy systemów reguło- 
wych. 
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Wyróżniane są dwa podstawowe rodzaje wnioskowania: wnioskowanie pro- 
gresywne (w przód) oraz regresywne (wstecz). Dalsza klasyfikacja zależy od ro- 
dzaju bazy wiedzy. Rozróżnia się więc wnioskowanie elementarne dokładne, roz- 
winięte dokładne, elementarne niepewne oraz rozwinięte niepewne [1]. 


Wnioskowanie progresywne 


Wnioskowanie progresywne, zwane także wnioskowaniem w przód (ang. for- 
ward chaining, data driven, event driven) jest wnioskowaniem od warunków do 
wniosku. Proces ten zaczyna się od pewnych znanych warunków początkowych, 
aby za pomocą reguł wyznaczać kolejno nowe fakty, będące wnioskami poprzed- 
nich. Celem tego typu wnioskowania jest wyznaczenie wszystkich wniosków 
prawdziwych i wszystkich wyników możliwych do wygenerowania ze zbioru fak- 
tów początkowych. Dokonuje się tego testując wielokrotnie wszystkie nietesto- 
wane dotąd reguły, zaczynając od pierwszej nietestowanej reguły. Jeżeli testowa- 
nie zostanie przeprowadzone dla wszystkich reguł, nazywane jest to cyklem te- 
stowania. W czasie cyklu testowania zostają wyznaczone nowe fakty, a następnie 
wnioskowanie przeprowadza się od początku dla rozszerzonej bazy faktów. Cykle 
testowania kończą się stanem ustalonym, czyli takim stanem, gdzie w poprzed- 
nim cyklu nie został wygenerowany żaden nowy wniosek ani żaden nowy wynik 
[3]. Testowana reguła może zwrócić różne wyniki : 


e Fakty potrzebne do spełnienia reguły są prawdziwe, a więc wniosek jest też 

prawdziwy. 

Fakty potrzebne do spełnienia reguły nie są prawdziwe, reguła nigdy nie będzie 

spełniona. 

e Fakty są nieokreślone i reguła jest pomijana, natomiast w kolejnym testowaniu 
może się okazać spełniona lub niespełniona. 

e Jeżeli kilka reguł ma ten sam wniosek, to jeżeli chociaż jedna będzie spełniona 
to wniosek jest prawdziwy. 

e Jeżeli jakiś reguła zwróciła prawdziwy wniosek to można ją pominąć ponieważ 
nie ma możliwości aby wniosek uznany za prawdę przestał nią być w wyniku 
testowania innych reguł. 


Przykład wnioskowania w przód Zakładamy, że A, B, D są faktami. 


F>G 
AB>C 
DE— F 
AC-E 
J>K 


Podczas pierwszego cyklu testujemy regułę F — Gi pomijamy ją, gdyż nic nie 
wiemy o E Z drugiej reguły AB — C możemy wywnioskować, ze C jest prawdziwe, 
a więc do zbioru faktów dochodzi jeszcze wniosek C. Następną regułę opusz- 
czamy, bo nic nie wiemy o E, a z przedostatniej reguły AC > E wiemy, ze Ai C 
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jest prawdziwe, więc wnioskujemy, że E jest prawdziwe. Ostatnią regułę pomi- 
jamy. 

Podczas drugiego cyklu testowania pierwszą regułę w dalszym ciągu omijamy, 
druga reguła była spełniona i nie możemy z niej już wygenerować nowych faktów, 
więc ją pomijamy. Z trzeciej reguły D E > F możemy wywnioskować, że F jest 
prawdziwe. Reguła A C — E jest już spełniona, a ostatnią regułę zgodnie z zasa- 
dami pomijamy. 

Podczas trzeciego cyklu możemy z pierwszej reguły wywnioskować, że G jest 
prawdziwe, bo F jest prawdziwe, a następnie pominąć następne reguły. Podczas 
czwartego cyklu wszystkie reguły spełnione pomijamy, a więc zostaje tylko jedna 
reguła nieokreślona J >Ki jest to zatem stan ustalony. 

Podsumowywując powyższy przykład można zauważyć, że niektóre reguły 
(np. F > G ) są nieokreślone w kolejnych cyklach aż do wygenerowania faktów, 
z których można wyciągnąć wnioski. Niektóre reguły tak jak J — K pozostają do 
końca nieokreślone. Idea wnioskowania w przód polega na testowaniu wszyst- 
kich reguł, zaczynając od pierwszej nietestowanej reguły do momentu, gdy już 
nie można nic wywnioskować. W omówionym przykładzie po trzecim cyklu te- 
stowania 4 reguły są spełnione, a jedna pozostaje nieokreślona, a więc jest to stan 
ustalony. 


Wnioskowanie regresywne (wstecz) 


Wnioskowanie regresywne, zwane także wnioskowaniem wstecz (ang. bac- 
kward chaining, goal driven, expectation driven) przyjmuje się odwrotny kieru- 
nek wnioskowania. Zaczyna się bowiem od postawienia pewnej hipotezy głów- 
nej, będącej wnioskiem jednej z reguł. Następnie weryfikuje się jej warunki. Jeśli 
są one faktami początkowymi, wtedy znana jest ich wartość logiczna. Mogą one 
też być są wnioskami innych reguł - nazywane są wtedy hipotezami pomocni- 
czymi, które należy sprawdzić w podobny sposób. Można powiedzieć, że proces 
wnioskowania regresywnego przebiega w sposób rekurencyjny w kierunku od hi- 
potezy do faktów początkowych. Celem tego typu wnioskowania jest sprawdze- 
nie prawdziwości jednej, konkretnej hipotezy bez potrzeby generowania dużej 
ilości niepotrzebnych wniosków, co ma przeważnie miejsce podczas wnioskowa- 
nia w przód. Wnioskowanie w przód generuje dużą ilość nowych faktów. Co zro- 
bić, gdy interesuje nas tylko jeden z faktów? Przykładowo interesuje nas czy G jest 
prawdziwe. W tym przypadku G nazywane jest hipotezą i podczas wnioskowania 
hipoteza ta jest weryfikowana albo odrzucana. Aby hipotezę można było zwe- 
ryfikować musi ona być wnioskiem jednej z reguł. W przypadku wnioskowania 
wstecz sprawdzana jest najpierw reguła, której wnioskiem jest badana hipoteza. 
Reguła ta posiada warunki niedopytytywalne, które stają się hipotezami pomoc- 
niczymi pierwszego rzędu. 


Przykład wnioskowa wstecz z wykorzystaniem tego samego co wcześniej przy- 
kładu Zakładamy A, B, D są faktami. Sprawdzana jest hipoteza : G fakt ? 


FG 


272 


17.2. Opis projektu 


AB>C 
DE— F 
AC-E 
J>K 


Przebieg weryfikacji hipotezy głównej zaczyna się na pierwszej regule F — G, 
hipoteza G jest wnioskiem faktu E W tym przypadku F staje się hipotezą pomoc- 
niczą pierwszego rzędu. Należy sprawdzić z czego wywnioskować fakt E Fakt F 
jest wnioskiem reguły D E — E D jest faktem, natomiast E jest hipotezą pomoc- 
niczą drugiego rzędu. E jest wnioskiem reguły czwartej A C — E, gdzie Ai C sa 
faktami, a z tego wynika, że G jest faktem. 


17.2. Opis projektu 


17.2.1. Cel 


Celem projektu było stworzenie prostego programu przedstawiającego pod- 
stawowe własności systemów ekspertowych oraz stosowane w nich metody wnio- 
skowania progresywnego oraz regresywnego. Jednym z założeń było oddziele- 
nie bazy wiedzy od silnika wnioskującego oraz stworzenie możliwości dodawania 
nowych faktów i reguł. Istotne wydawało się także stworzenie prostego i czytel- 
nego interfejsu graficznego, umożliwiającego łatwą modyfikację bazy wiedzy. 

Powyższe cele zrealizowane zostały z wykorzystaniem otwartej implementacji 
języka Prolog (SWI-Prolog). W celu stworzenia interfejsu graficznego wykorzy- 
stana została nakładka obiektowa XPCE, dostępna standardowo wraz kompilato- 
rem SWI-Prologa. 


17.2.2. Opis działnia programu 


Zadaniem stworzonego programu jest diagnozowanie chorób zakaźnych na 
podstawie występujących u pacjenta objawów. System rozpoznaje 6 różnych 
chorób na podstawie około 30 różnych objawów. Każdej z chorób przydzielona 
zostaje lista możliwych objawów, a także lista symptomów, która z daną chorobą 
nigdy nie występuje. W trakcie pracy z programem istnieje możliwość wyboru 
sposobu wnioskowania. We wnioskowaniu progresywnym na podstawie poda- 
nych informacji Prolog dokonuje kolejnych podstawień. Sprawdzając wszystkie 
możliwości, wyświetla tylko te choroby, których objawy zgadzają się z faktami za- 
wartymi w bazie wiedzy. W przypadku wnioskowania regresywnego w wyświetlo- 
nym okienku należy wybrać chorobę, którą podejrzewamy u pacjenta, a system 
sprawdzi tylko postawioną hipotezę. 


17.2.3. Instalacja, kompilacja i obsługa programu 


Program dostarczony jest w wersji skompilowanej dla systemu Win- 
dows. Aby uruchomić program w tym środowisku wystarczy rozpakować plik 
Diagnozowanie chorob.zip do jednego katalogu, a następnie uruchomić plik 
wykonywalny run.exe. Wraz z plikiem wykonywalnym dostępny jest także kod 
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źródłowy, znajdujący się w pliku start .pl. Pracując pod dowolnym systemem 
operacyjnym można go zaimportować do SWI-Prologa za pomocą polecenia: 

?- consult (start). 

Następnie w celu uruchomienia programu wystarczy wpisać: 

?- main. 


Możliwa jest też kompilacja programu do postaci wykonywalnej. W tym celu po 
wczytaniu pliku start .pl z poziomu SWI-prologa należy użyć polecenia: 

?- kompilacja(’NazwaPliku’). 

gdzie NazwaPliku to nazwa wynikowego pliku wykonywalnego, który chcemy 
otrzymać w wyniku kompilacji. Niezwykle ważne jest, aby skompilowany plik 
przenosić wraz z resztą plików znajdujących się w katalogu - są one bowiem wy- 


korzystywane przez program i ich usunięcie powoduje brak możliwości urucho- 
mienia systemu. Jedynym wyjątkiem jest plik start.pl. 


17.2.4. Opis interfejsu użytkownika 


Stworzony system wyposażony został w graficzny interfejs użytkownika. Po 
uruchomieniu programu pojawia się okno dialogowe z czterema kolejnymi przy- 


ciskami (rys. ; 


d 


Rys. 17.1: Okno główne programu. 


Po kliknięciu przycisku Edytuj objawy otwiera się nowe okienko (rys. 
wraz z listą aktualnie dostępnych symtomów. Obok listy wyboru pojawia pole 
tekstowe oraz przycisk Dodaj objaw. Po wpisaniu nowego objawu i kliknięciu 
przycisku Dodaj objaw lista zostaje zaktualizowana. 

Trzeci przycisk, przedstawiony na rys.[17.3Jumożliwia dodanie nowej choroby 
do bazy danych. Po jego kliknięciu pojawia się okno dialogowe z listą chorób 
znajdujących się w bazie danych. 

Każdą chorobę można zaznaczyć, a następnie klikając Edytuj objawy można 
zmienić objawy do niej przyporządkowane. W przypadku edytowania sympto- 
mów choroby pojawia się nowe okienko wraz z 3 listami do wyboru (rys. (17.4). 
W środkowej liście znajdują się elementy nieprzyporzadkowane do żadnej z po- 
zostałych. Używając przycisków <== i ==> można przenosić je między listami. 
Podczas edycji objawów choroby niemożliwe jest przyporządkowanie tego sa- 
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Nowy objaw: L Dodaj objaw | 


temperatura do 37 = 
temeratura od 38 do 39 
temperatura powyzej 39 

bole miesni i stawow 


organizm silnie oslabiony 

ostry bol gardla 

powiekszone wezly chlonne 
opuchniete migdalki 

klopoty z oddychaniem 

brzydki zapach z ust y] 


Usun | Koniec | 


Rys. 17.2: Okno dodawania objawów. 


Nowa choroba: R 
Dodaj | 


odra 

swinka 

grypa 
przeziebienie 
rozyczka 
angina 


Edytuj liste objawow | Usun | Koniec | 


Rys. 17.3: Okno edycji chorób. 


mego elementu do obu grup, co rozwiązuje problem potencjalnego braku spój- 
ności bazy wiedzy. 
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i | O S oOo 
Wystepujace objawy choroby: Zdefiniowane objawy Niewystepujace objawy choroby 


<== ==> <== ==> 
nagly poczatek choroby E Es] temperatura do 37 [e EE kichanie 
temeratura od 38 do 39 zap chrypka 
temperatura powyzej 39 powiekszo chlonne brzydki zapach z ust 
bole glowy opuchniete obrzek slinianek przyusznych 
bole miesni i stawow klopoty z oddychaniem wysypka na ciele 
organizm silnie oslabiony suchosc w ustach plamki Koplika 
suchy kaszel swiatlowstret 
czas trwania chorol nad 7 


katar_niezyt nosa zi 


Koniec 


Rys. 17.4: Okno edycji objawów choroby. 


Po kliknięciu na przycisku Diagnozuj pacjenta pojawia się okno (rys. 
z polem tekstowym, gdzie wpisać należy imię pacjenta. Po naciśnięciu przycisku 
Dodaj, pojawia się nowe okno dialogowe z pustą listą objawów pacjenta i listą 
wszystkich możliwych objawów. Przycisk <== służy do przenoszenia objawów 
z jednej listy na drugą. Następnie możliwe jest wykorzystanie jednego z dwóch 
silników wnioskowania. Wciśnięcie przycisku Możliwe diagnozy powoduje wy- 
świetlenie wszystkich możliwych diagnoz dotyczących choroby. Kolejnym przy- 
ciskiem jest przycisk Sprawdź hipotezę. Po jego naciśnięciu pojawia się okno dia- 
logowe z chorobami zdefiniowanymi w bazie wiedzy. Następnie należy wybrać 
jedną z chorób jako hipotezę odnośnie diagnozy, a system będzie starał się ją 
udowodnić. Wybierając z listy dowolną chorobę i wnioskując w tył otrzymamy 
odpowiedzi: „Hipoteza potwierdzona” w przypadku udowodnienia postawionej 
diagnozy lub „Hipoteza odrzucona” w przypadku braku możliwości jej udowod- 
nienia. 


Imie: | 


Dodaj objaw pacjenta Anuluj Mozliwe diagnozy| Sprawdz hipoteze 
j objaw pac] 


Rys. 17.5: Okno nowej diagnozy. 
Kliknięcie na przycisku Koniec zawsze kończy pracę aktualnego okienka, 
w którym został wywołany. 
17.2.5. Opis implementacji 
W poniższej części dokumentu przedstawiony został sposób implementacji 
poszczególnych fragmentów stworzonego programu wraz z przykładami kodu 


źródłowego. 
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Jezyk Prolog 


Całość projektu utworzona została w środowisku SWI-Prolog. Prolog jest jezy- 
kiem programowania logicznego. Stąd też pochodzi jego nazwa (ang. Program- 
ming in Logic, ProLog - programowanie w logice). Idea jego działania polega na 
wnioskowaniu i sprawdzaniu wartości logicznych (testowaniu) kolejnych predy- 
katów zamiast wykonywania kolejnych linii kodu i podprogramów. W wielu przy- 
padkach można przyjąć pewne uproszczenie, porównując testowanie predyka- 
tów do wykonywania funkcji. Dla przykładu: predykat write powoduje wypisa- 
nie informacji w oknie konsoli. Trzeba jednak pamiętać, że wszystkie predykaty 
(w przeciwieństwie do standardowego algorytmu wykonywanego krok po kroku) 
nie muszą koniecznie zostać wykonane - w zależności od użytych spójników lo- 
gicznych oraz zwracanych wartości. Ponieważ stworzono już wiele świetnych 
kursów języka Prolog, poniższy opis dotyczy jedynie przykładów zaczerpniętych 
z kodu źródłowego programu wraz z krótkimi opisami ich działania [4]. 


XPCE 


Biblioteki XPCE stanowią obiektową nakładkę na język Prolog. Jest ona stan- 
dardowo zintegrowana ze SWI-Prologiem, rozszerzając jego możliwości przez do- 
danie mechanizmów obiektowości. Za pomocą szeregu nowych predykatów, ta- 
kich jak new, send iget możliwe jest tworzenie okien dialogowych, elementów 
graficznych, przycisków, list wyboru i wielu innych elementów graficznego inter- 
fejsu użytkownika GUI (ang. Graphical User Interface), zapisanych bezpośrednio 
w plikach Prologa. Biblioteka zawiera ponad 140 wstępnie zdefiniowanych klas i 
ponad 2000 metod [5]. 


Przykłady implementacji 


Pliki Prologa są w istocie plikami tekstowymi, w których znajdują się zapisane 
kolejne fakty i reguły. W celu załadowania bazy wiedzy takiego pliku wykorzystuje 
się polecenie ‘consult. 


?- consult (’NazwaPliku’). 
Uruchomienie programu zwiazane jest z uruchomieniem predykatu main: 


main :- consult (’objawy’), consult (' reguly'), consult ('pacjent'), 
consult (' choroby’), consult (’objawy_choroby’), 
consult ('nie_objawy_choroby'), 
diagnostyka. 

Powyższy predykat spełnia rolę funkcji wczytującej bazę wiedzy z plików Pro- 
loga. Kolejno wczytywane są pliki: 
e objawy.pl - baza wstępnie zdefiniowanych objawów chorób, 
* reguly.pl - baza reguł wnioskowania systemu wraz z predykatem diagnoza/2 
e pacjent.pl - baza pacjentów wraz z ich objawami, 
e choroby.pl - baza wstępnie zdefiniowanych chorób, 
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e objawy_choroby.pl - baza faktów przyporzadkowujacych objawy wystepu- 
jące w poszczególnych chorobach, 

e nie_objawy_choroby.pl - baza objawów, które nie występują przy poszcze- 
gólnych chorobach. 


Ponieważ w przypadku koniunkcji (znak przecinka między predykatami) te- 
stowane są wartości logiczne kolejnych predykatów do momentu, aż jeden z nich 
zwróci wartość false, powyższe instrukcje wykonywane są w kolejności ich wy- 
wołania. Po zakończeniu ładowania plików bazy wiedzy następuje uruchomienie 
predykatu/funkcji diagnostyka. 

Aby skompilowany program mógł dodawać i usuwać fakty z bazy wiedzy, na 
początku pliku następuje zdefiniowanie predykatów jako dynamic w następujący 
sposób: 

:-dynamic(zdiagnozowano/2). 
:-dynamic (pacjent/2). 
:-dynamic(diagnoza/2). 
:-dynamic(mozliwa_choroba/2). 
:-dynamic(niemozliwa_choroba/2). 


Przykładem predykatu-procedury wykorzystującego mechanizm dynamicz- 
nego dodawania faktów jest predykat diagnozuj, odpowiadający za mechanizm 
wnioskowania w przód: 


555% EFEKT PRZYCISKU DIAGNOZUJ %%%%%%%% 

diagnozuj(X) :- diagnoza(X,Y),% testowanie reguły diagnoza, 

% podstawienie pod Y nazwy choroby 

new(@DIA, dialog('Diagnoza dla pacjenta')), Sutworzenie okienka 
send(@DIA, append(label (choroby, Y))), %dodanie napisu 

send ((DIA, open), Swyswietlenie okienka 


assert (zdiagnozowano (X, Y)) fail. %dodanie nowego faktu 


Powyzszy fragment kodu odpowiada za postawienie diagnozy podczas wnio- 
skowania w przód. Efektem jego działania jest wyświetlenie nowego okna dia- 
logowego z nazwą choroby dla każdej postawionej diagnozy. Predykat new two- 
rzy nowe obiekty, w tym przypadku okno dialogowe, następnie za pomocą pre- 
dykatu send oraz append dodawane są nowe elementy interfejsu. Operacja 
send (@DIA, open) powoduje wyświetlenie okna dialogowego o nazwie @DIA. Na 
końcu do bazy dodawany jest nowy fakt. 

Wnioskowanie regresywne realizowane jest przez testowanie predykatu 
sprawdz_hipoteze, gdzie X to imię pacjenta, a Y to nazwa choroby. 


sprawdz_hipoteze(X,Y) :- diagnoza(X,Y), 

new (GXXX, dialog('Wynik testu hipotezy’)), 

send(@XXX, append (label (choroby, "Hipoteza potwierdzona’))), 
send(@XXX, open). 
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% 


sprawdz_hipoteze (X,Y) :- N+ diagnoza (X,Y), 

new(@NNN, dialog('Wynik testu hipotezy’)), 

send(@NNN, append (label (choroby, ‘Hipoteza odrzucona’))), 
send(@NNN, open). 


Zdefiniowanie dwóch predykatów o tej samej nazwie zastępuje w Prologu alter- 
natywę logiczną. Za każdym razem testowane są więc oba predykaty. W przy- 
padku gdy diagnoza (X, Y) zwraca wartość true, drugi predykat wykonuje się 
tylko do pierwszej linii, a pierwszy wykonuje się w całości, wyświetlajac stosowne 
okno dialogowe. W przypadku, gdy diagnoza (X,Y) zwróci wartość false, wy- 
świetlane jest drugie okienko. 


mozliwa_choroba (Pacjent,Choroba) :- 
ma_objaw(Pacjent,Objaw), choroba_objaw(Choroba,Objaw). 
niemozliwa_choroba (Pacjent,Choroba) :- 
ma_objaw(Pacjent,Objaw), choroba_nie_objaw (Choroba, Objaw). 
diagnoza (Pacjent,Choroba) :- 
mozliwa_choroba (Pacjent, Choroba), 

N+ niemozliwa_choroba (Pacjent, Choroba). 


Głowny mechanizm stawiania diagnozy znajduje się w osobnym pliku 
reguly.pl i jest wczytywany do programu podczas jego uruchomienia. Powyz- 
szy zbiór prostych reguł odpowiada za stawianie diagnozy na podstawie samych 
symptomów. Przez edycję pliku możliwe jest rozszerzenie bazy o nowe reguły 
(np. dotyczące analizy wyników badań) bądź całkowita zmiana zasad wniosko- 
wania. 

Głowny kod interfejsu programu znajduje się w pliku start.pl Większość 
okien a zdefiniowana jest w nim według następującego schematu: 


2 2. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. O. 0. 0. 0. 


lista_objawow_pacjenta_dialog (Pacjent) :- 
w(@LOP, dialog('Lista objawow pacjenta’ )), 
new(POBJ, browser), 
w(XOBJ, browser), 
%% dodanie zdefiniowanych objawow do list wyboru 
objaw_pacjenta_do_listy(Pacjent,POBJ), 
objaw_nie_przypisany_do_pacjenta (Pacjent, XOBJ), 
send(@LOP, append (label (objawyp,'Objawy pacjenta: 
zdefiniowane objawy:’))), 


send(@LOP, append(POBJ)), %dodanie listy wyboru 
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%% Tworzenie przyciskow: 
send(@LOP, append (button ('<==", message (Eprolog, 
dodaj_objaw_pacjenta, Pacjent, 
XOBJ?selection?key, POBJ, XOBJ)),right)), 
send(@LOP, append(button('==>', message (tprolog, 
usun_objaw_pacjenta, Pacjent, 
POBJ?selection?key, POBJ, XOBJ)),right)), 
send(@LOP, append(XOBJ, right)), 
send(@LOP, append(button(koniec, message(@LOP, destroy)))), 
send(@LOP, open) . 


Jest to przykład okna dialogowego, umożliwiającego przypisanie objawów pa- 
cjenta na podstawie globalnej listy objawów wcześniej zdefiniowanych, repre- 
zentowanych w bazie wiedzy przez fakty ma_ob jaw (pacjent, objaw). Predykaty 
objaw _pacjenta_do_listy odpowiada za wypełnienie listy wyboru POBJ obja- 
wami, które występują u pacjenta. Poniżej znajdują się także przyciski <== oraz 
==>. Na powyższym przykładzie widać rónież, że silnik Prologa traktowany jest 
w XPCE jako osobny obiekt @prolog. Umożliwia to względnie łatwą obsługę zda- 
rzeń przycisków: 


send(@LOP, append (button ('<==", message (Eprolog, 
dodaj_objaw_pacjenta, Pacjent, XOBJ?selection?key, 
POBJ, XOBJ)),right)), 


Działanie powyższej linii kodu jest następujące: Do okna o nazwie @LOP do- 
dany zostaje przycisk o etykiecie <==, z którym skojarzona jest komenda wy- 
słana do silnika Prologa. Ten z kolei uruchomia dwuargumentowy predykat 
dodaj_objaw_pacjenta. Pierwszym argumentem testowanego predykatu jest 
imię pacjenta. Drugi z nich to XOBJ?selection?key. Jak nietrudno odgadnąć, 
operator ? jest równoznaczny operacji get i służy do wyłuskania nazwy zazna- 
czonego pola listy wyboru wszystkich objawów. POBJ i XOBJ to dwie listy wyboru, 
których nazwy też są przekazywane w argumentach predykatu. 


Rozwiązania zapewniające spójność bazy wiedzy 


Aby uchronić system przed skutkami niespójności bazy wiedzy, w programie 
zastosowano szereg zabezpieczeń. Pierwszym z nich jest stosowanie list wyboru. 
Aby przypisać objawy do choroby, muszą one być wcześniej zdefiniowane w ba- 
zie wiedzy. Przypisywanie objawów do chorób, widoczne na rys. odbywa 
się na zasadzie „przerzucania” elementów między listami wyboru. Za każdym 
razem objaw może znajdować się tylko na jednej z list. Nie może więc zajść sytu- 
acja, w której użytkownik popełni błąd i wprowadzi sprzeczność w bazie wiedzy, 
sabotując tym samym działanie mechanizmu wnioskującego. 


doda j_objaw_choroby (Choroba,Objaw,ListaX,ListaAll) :- 
choroba_objaw (Choroba, Objaw); 
assert (choroba_objaw (Choroba, Objaw)), 


280 


17.2. Opis projektu 


send(ListaAll, delete, Objaw), 
send (ListaX, append, Objaw). 


Powyzszy fragment kodu to funkcja odpowiadajaca za dodawanie objawu 
choroby. Zmienne Choroba, Objaw, ListaX oraz ListaAll pełnią w niej 
rolę argumentów. Na początku sprawdzana jest wartość logiczna predykatu 
choroba_objaw. Jeśli jest ona prawdziwa, oznacza to, że taki fakt już istnieje w 
bazie wiedzy. Średnik w trzeciej linii kodu oznacza alternatywę logiczną - w przy- 
padku, gdy fakty znajdujące się przed nim są prawdziwe, wartości dalszych pre- 
dykatów nie są już testowane i wykonywane, dzięki czemu system nie pozwala na 
dodawanie faktów już istniejących. W przeciwnym wypadku nowy fakt należy do- 
dać do bazy wiedzy za pomocą polecenia assert. Ostatnią czynnością jest prze- 
rzucenie odpowiedniego elementu między listami List aX oraz ListaAll w oknie 
dialogowym, aby użytkownik natychmiast zauważył efekt swojego działania. 


17.2.6. Podsumowanie 


Ze względu na skomplikowany proces diagnozowania oraz konieczność po- 
siadania bardzo dużej wiedzy eksperckiej z dziedziny medycyny, realizowany 
projekt został ograniczony do systemu przykładowego, którego głownym zada- 
niem była demonstracja mechanizmów wnioskowania języka Prolog. Realiza- 
cja praktyczna projektu ukazała typowe problemy, z jakimi spotkać się można 
podczas budowy systemu ekspertowego. Pierwszym z nich jest rozmyty charak- 
ter wiedzy eksperckiej i oddanie toku myślenia eksperta, który niejednokrotnie 
sam nie jest całkowicie świadom reguł swojego postępowania. Kluczowy jest tu 
wybór odpowiedniego narzędzia w zależności od problemu - systemy regułowe 
dokładne, oprate na wnioskowaniu logicznym, nie zawsze okazują się najlep- 
szym wyborem. Programowanie w Prologu jest jednak fascynującym doświad- 
czeniem, gdyż wymaga wypracowania zupełnie innego sposobu myślenia i za- 
stosowania odmiennych schematów postępowania, niż w przypadku tradycyj- 
nych języków programowania. Podobnie istotny jest właściwy wybór dystrybu- 
cji Prologa oraz sposobu realizacji interfejsu. Możliwości XPCE odbiegają tu co 
prawda od powszechnego wyobrażenia o nowoczesnych, wizualnych edytorach 
GUI, lecz żadna z pozostałych dystrybucji Prologa również nie imponuje pod tym 
względem. Z drugiej strony, połączenie Prologa i XPCE ma bardzo wiele zalet. Po 
pierwsze, jest to rozwiązanie darmowe i całkowicie zintegrowane, a SWI-Prolog 
jest obecnie jedną z najbardziej popularnych, nowoczesnych dystrybucji tego ję- 
zyka. Po drugie - po bliższym poznaniu XPCE okazuje się być zupełnie wystar- 
czającym narzędziem do budowy kompletnych interfejsów systemów eksperto- 
wych. Stworzone dzięki niemu oprogramowanie jest też niezwykle przenośne - 
jak zostało wielokrotnie sprawdzone, kod programu kompiluje się, działa i wy- 
gląda dokładnie tak samo, niezależnie od systemu operacyjnego. Jako podsumo- 
wanie projektu można więc śmiało polecić korzystanie ze wspomnianych narzę- 
dzi zarówno podczas zajęć edukacyjnych, jak i w trakcie realizacji podobnych, 
nawet komercyjnych projektów. 
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Od redaktora i wydawcy 


Czym jest wiedza? 

Nad tym pytaniem zastanawiali się juz starożytni, głowili się filozofowie, 
łamali głowę psycholodzy, próbowali na nie odpowiadać praktycy. Choć 
wiedza powszechnie kojarzona jest z informacją, nauką, doświadczeniem, 
zbiorem faktów, nie posiada ona jednej, uniwersalnej definicji. 
W zależności od kontekstu odpowiedź na to pytanie może przybrać różną 
postać i formę. 


Czym jest przetwarzanie wiedzy? 
To kolejna niewiadoma, sięgająca w swej materii do sposobów reprezentacji wiedzy, jej interpretacji 
i wykorzystania, włączając w to metody wnioskowania i podejmowanie decyzji. Podobnie jak w pytaniu 
o wiedzę, mnogość możliwych odpowiedzi moze tu być ogromna. 


Czym jest komputerowe przetwarzanie wiedzy? 

Odpowiedź na to pytanie jest projekcją sumy odpowiedzi na powyższe dwa pytania na płaszczyznę 
zdefiniowaną przymiotnikiem „komputerowe”. Mówiąc prościej jest to dziedzina, w której wykorzystuje 
się komputery do rozwiązywania złożonych problemów zdefiniowanych na różnych poziomach 
abstrakcji. Wykracza ona poza samą implementację algorytmów ekstrahujących wartości parametrów 
opisujących otaczający nas świat. Istnieje na pograniczu sztucznej inteligencji i inteligencji istot 
żywych, tworząc pomost pomiędzy czymś, co jesteśmy w stanie sami przeanalizować, a czymś, co 
umyka naszym zmysłom z powodu wielkiej złożoności albo szczegółowości. 


W niniejszej książce zebrano opracowania wykonane przez studentów V roku Automatyki i robotyki 
w ramach kursu Komputerowe przetwarzanie wiedzy prowadzonego przeze mnie na Politechnice 
Wrocławskiej w semestrze zimowym 2010/2011. Zgodnie z zarysowanym kształtem odpowiedzi na 
ostatnie z powyższych pytań, zadanie studentów polegało nie tyle na zaimplementowaniu jakiegoś 
opublikowanego bądź autorskiego algorytmu, co na posłużeniu się zdobywaną dzięki temu wiedzą do 
rozwiązania jakiegoś problemu na wyższym poziomie abstrakcji. 


Zakres tematyczny opracowań można zawrzeć w następującym zestawieniu: 
-Przetwarzania dokumentów 
— Percepcja i ekspresja 
- Losowość jej zastosowanie 
— Bazy danych 
- Systemy ekspertowe 
— Portale społecznościowe 
- Systemy agentowe 
— Analiza ryzyka 
— Kontrola jakości 


Mam nadzieję, że lektura tych opracowań okażą się interesująca dla czytelnika. 


Tomasz Kubik 
Wrocław, wrzesień 2011 
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